大连理工大学;山东纬横数据科技有限公司赵文达获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉大连理工大学;山东纬横数据科技有限公司申请的专利音视频跨模态特征表达的目标行为感知方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN117011763B 。
龙图腾网通过国家知识产权局官网在2026-02-13发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310866413.7,技术领域涉及:G06V20/40;该发明授权音视频跨模态特征表达的目标行为感知方法是由赵文达;张哲溥;刘兴惠;李至立;夏学知设计研发完成,并于2023-07-14向国家知识产权局提交的专利申请。
本音视频跨模态特征表达的目标行为感知方法在说明书摘要公布了:本发明属于视频信息处理技术领域,提出一种音视频跨模态特征表达的目标行为感知方法。该方法基于目标行为感知网络模型实现,其包括视频特征提取网络、跨模态信息融合网络和分类器。将视频数据进行空间降维后利用变换操作将信息模式转化为与音频类似的频率表示,消除了两种模态间存在的维度差异与表述差异;在此基础之上采用中间融合与后期融合相结合的方式进行音视频结合,提升跨模态信息融合效果。本方法可以简单拓展应用于其他需要借助音视频融合信息的任务中,有效解决了音频与视频的差异对于模态融合产生的影响。
本发明授权音视频跨模态特征表达的目标行为感知方法在权利要求书中公布了:1.一种音视频跨模态特征表达的目标行为感知方法,其特征在于,基于目标行为感知网络模型实现;所述目标行为感知网络模型包括视频特征提取网络、跨模态信息融合网络和分类器; 具体包括如下步骤: 步骤1:采样含音频的视频片段X,分离得到视频部分XV与音频部分XA输入至目标行为感知网络模型; 步骤2:视频部分XV和音频部分XA输入至跨模态信息融合网络;视频部分XV预处理后经空间降维、时频变换和视频特征映射后得到视频映射;音频部分XA经音频短时傅里叶变换、音频特征映射后得到音频映射; 步骤3:视频部分XV输入至视频特征提取网络;视频部分XV预处理后通过视频特征提取获得视频特征; 步骤4:视频特征与融合的音视频特征进行拼接后输入至分类器中,获得含音频的视频片段X的行为分类结果;根据分类损失函数优化目标行为感知网络模型的网络参数至模型达到收敛;所述目标行为感知网络模型整体为Y: 其中,h·为分类器,为特征拼接操作,f·为视频特征提取网络,基于3D卷积的特征提取网络3D ResNet实现;g·为跨模态信息融合网络;g·进一步分解为: 其中,r·为音频特征映射网络,基于2D卷积的特征提取网络ResNet实现;s·时频变换及视频特征映射网络,基于浅层2D卷积网络实现;T·为信息融合网络,基于Transformer编码器实现。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人大连理工大学;山东纬横数据科技有限公司,其通讯地址为:116024 辽宁省大连市甘井子区凌工路2号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励