闽南科技学院吴文波获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉闽南科技学院申请的专利一种基于视频和文本融合的轻量级Transformer视频动作识别方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN121353996B 。
龙图腾网通过国家知识产权局官网在2026-03-24发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511923469.7,技术领域涉及:G06V20/40;该发明授权一种基于视频和文本融合的轻量级Transformer视频动作识别方法是由吴文波;余明;吴昌钱设计研发完成,并于2025-12-19向国家知识产权局提交的专利申请。
本一种基于视频和文本融合的轻量级Transformer视频动作识别方法在说明书摘要公布了:本发明涉及视频动作识别领域,具体涉及一种基于视频和文本融合的轻量级Transformer视频动作识别方法,包括如下依次执行的步骤:S1:获取视频数据集,从该视频数据集中获取关键帧图像集和文本集;S2:采用三维卷积神经网络提取该关键帧图像集的时空视觉特征,获得结构化的视频视觉特征,采用预训练双向Transformer语言模型BERT提取文本集的语义特征;S3:将该视频视觉特征和该语义特征输入轻量级Transformer融合层进行特征融合,获取融合特征;S4:将该融合特征输入全连接层,将融合特征映射到动作类别空间,并进行Softmax归一化操作,将归一化后的特征输入分类器进行动作预测,输出动作类别以及对应的概率值;从而提高视频动作识别的准确率。
本发明授权一种基于视频和文本融合的轻量级Transformer视频动作识别方法在权利要求书中公布了:1.一种基于视频和文本融合的轻量级Transformer视频动作识别方法,其特征在于:包括如下依次执行的步骤: S1:获取视频数据集,对该视频数据集中的各段视频进行逐帧采样; 基于平均时间分布原则,从每段视频中等间隔选取第一预设帧数的图像作为用于动作表征的关键帧图像集,并依据视频对应的类别信息对所述关键帧图像集赋予动作标签; 以固定时间间隔从每段视频中等间隔选取第二预设帧数的图像构建用于文字解析的图像帧集合; 对该图像帧集合提取字幕和或屏幕文字,获得与视频对应的文本集; S2:采用三维卷积神经网络提取该关键帧图像集的时空视觉特征,对该时空视觉特征进行全局平均池化与线性变换增强,获得结构化的视频视觉特征,采用预训练双向Transformer语言模型提取文本集的语义特征; S3:将该视频视觉特征和该语义特征输入轻量级Transformer融合层进行特征融合,具体融合步骤如下: S3-1:对该视频视觉特征和该语义特征进行特征映射; S3-2:为映射后的视觉特征和语义特征分别加入模态类型标签; S3-3:采用token级联合编码策略将嵌入模态类型标签的视频视觉特征和语义特征进行按序拼接,获取联合特征; S3-4:采用单层共享Transformer编码器对该联合特征进行视频和文本的双向交互,具体交互过程为:采用跨模态自注意力对该联合特征进行双向语义交互,输出交互特征,将该交互特征与联合特征进行残差连接,对残差连接后的特征进行层归一化处理,采用轻量级前馈网络模块对归一化后的特征进行特征变换和非线性增强,输出融合特征; S4:将该融合特征输入全连接层,将融合特征映射到动作类别空间,并进行Softmax归一化操作,将归一化后的特征输入分类器进行动作预测,输出动作类别以及对应的概率值。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人闽南科技学院,其通讯地址为:362000 福建省泉州市康美镇开发区;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励