武汉大学陈震中获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉武汉大学申请的专利一种基于音视频特征的视频显著性预测方法和系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116403135B 。
龙图腾网通过国家知识产权局官网在2025-10-17发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310247030.1,技术领域涉及:G06V20/40;该发明授权一种基于音视频特征的视频显著性预测方法和系统是由陈震中;陈钊;张考设计研发完成,并于2023-03-10向国家知识产权局提交的专利申请。
本一种基于音视频特征的视频显著性预测方法和系统在说明书摘要公布了:本发明针对视频显著性预测领域,公开了一种基于音视频特征的视频显著性预测方法和系统。首先通过数据预处理将待预测视频处理为视频帧与对数梅尔频谱图,通过三路并行的编码器提取视频帧空间特征,时间特征,与视频帧时间同步的音频的语义特征。之后通过一个基于通道注意力机制的音视频特征融合模块,利用视觉特征与音频特征语义信息,自适应地学习视觉特征的通道间权重,以此实现音视特征的融合。最后将音视频特征通过解码器获得视频帧的显著性预测图。
本发明授权一种基于音视频特征的视频显著性预测方法和系统在权利要求书中公布了:1.一种基于音视频特征的视频显著性预测方法,其特征在于,包括如下步骤: 步骤1,数据预处理,首先将需要预测的视频及其时间同步的音频进行处理成连续的视频帧与对数梅尔频谱图; 步骤2,首先构建视觉显著性基础特征提取模块,用于提取视频帧的特征; 步骤3,基于视频帧的特征提取视频帧中包含的空间显著性特征和时间显著性特征,融合空间特征和时间特征获得视觉显著性特征,并提取对数梅尔频谱图中包含的音频语义特征; 步骤3中,将空间和时间特征按通道层进行连接,使用两层卷积层自动融合空间和时间特征,输出视觉显著性特征 步骤3中构建音频编码器提取对数梅尔频谱图中包含的音频语义特征,具体实现方式如下; 往音频编码器中输入同输入空间编码器视频帧时间同步的对数梅尔频谱图An,使用ResNet18模型作为音频编码器从对数梅尔频谱图An获得音频语义特征 步骤4,构建音视频特征融合模块,将视觉显著性特征与音频语义特征进行自适应融合,得到音视频显著性特征; 音视频融合模块基于通道注意力机制自动学习通道间的权重参数,具体实现方式如下; 首先将视觉显著性特征通过一个全局平均池化层P将视觉显著性特征压缩到通道层面的统计信息;第二步利用两个非线性全连接层fV和fA将通过全局平均池化层的视觉显著性特征和音频语义特征进行维度的调整,之后将其逐元素相加得到音视频语义特征;然后利用具有sigmoid激活函数的多层感知机U计算通道层次的注意力权重Wn,以上流程如下方程所示: 最后将得到的注意力权重Wn同逐元素相乘,得到基于音视频特征的显著性特征 步骤5,利用解码器将音视频显著性特征整合成单通道显著性图; 步骤6,对由步骤2-步骤5构成的整体模型进行训练; 步骤7,利用训练好的整体模型实现视觉显著性预测。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人武汉大学,其通讯地址为:430072 湖北省武汉市武昌区八一路299号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励