中南大学杨柳获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉中南大学申请的专利基于音视频双模态特征融合的视频时域动作分割方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115471774B 。
龙图腾网通过国家知识产权局官网在2025-08-12发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211139594.5,技术领域涉及:G06V20/40;该发明授权基于音视频双模态特征融合的视频时域动作分割方法是由杨柳;殷鑫;龙军;蒋豫;吴振杰设计研发完成,并于2022-09-19向国家知识产权局提交的专利申请。
本基于音视频双模态特征融合的视频时域动作分割方法在说明书摘要公布了:本发明提供了一种基于音视频双模态特征融合的视频时域动作分割方法,设计了一种视频时域动作分割网络模型,将音频特征引入到视频时域动作分割任务中,利用音频天然的波形特征以及视频特征用于回归动作边界概率,并设计多阶段视听双模态级联网络,用以捕获视频的边界信息,细化网络的逐帧动作预测;同时设计视听双模态边界回归模块计算音频特征和视频特征得到动作边界概率并对上述多阶段视听双模态级联网络的动作分类结果进行细化,捕获可靠的视频片段与正确的视频动作分类,用以缓解视频分割时的边界模糊问题,提高视频动作分割效果。
本发明授权基于音视频双模态特征融合的视频时域动作分割方法在权利要求书中公布了:1.基于音视频双模态特征融合的视频时域动作分割方法,其特征在于,包括以下步骤: S1:提取多媒体数据的视频特征和音频特征; S2:建立视频时域动作分割网络模型,并依据视频时域动作分割网络模型输出视频时域动作分割分类结果,所述视频时域动作分割网络模型包括多阶段视听双模态级联网络与视听双模态边界回归模块,具体步骤包括: S2-1:将多媒体数据的音频特征融入视频特征,得到融合后的视听双模态特征,输入多阶段视听多模态级联网络中; S2-2:基于音频特征和视频特征,通过视听双模态边界回归模块生成视听双模态边界平滑算子,通过视听双模态边界平滑算子平滑多阶段视听多模态级联网络中每个级联阶段的帧置信度得分,并生成自注意力权重; S2-3:将多阶段视听多模态级联网络中每个级联阶段的帧置信度得分根据自注意力权重矩阵加权求和,输入融合阶段,得到融合分类分数,根据融合分类分数输出视频时域动作分割分类结果; 所述步骤S2-2中通过视听双模态边界平滑算子平滑多阶段视听多模态级联网络中每个级联阶段的帧置信度得分的表达式为: b′=bvideo+βbaudio2 其中,为加入平滑算子后网络预测的帧置信度得分;为帧置信度得分;s为池化的方向;β为确定不同特征贡献的模型超参数;L为长度,池化窗口的长度为2L+1;为池化窗口内帧的帧置信度得分;α为自注意力权重的衰减率;j为池化窗口中每个方向取的元素数目;b′t+s·j为池化窗口内的动作边界概率;att为自注意力调整单元;b′为融合边界概率;bvideo为视频边界概率;baudio为音频边界概率; 所述步骤S2-2中自注意力权重的表达式为: 其中,为多阶段视听多模态级联网络中每个级联阶段的自注意力权重;e为自然常数;ρ为设置的帧置信度得分阈值;为时间为t,阶段为j'时的帧置信度得分。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中南大学,其通讯地址为:410083 湖南省长沙市岳麓区麓山南路932号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。