重庆邮电大学胡峰获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉重庆邮电大学申请的专利一种基于生成字幕的多粒度语义对齐文本-视频检索方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119557479B 。
龙图腾网通过国家知识产权局官网在2025-11-18发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411600269.3,技术领域涉及:G06F16/783;该发明授权一种基于生成字幕的多粒度语义对齐文本-视频检索方法是由胡峰;杨永亮;王烨;于政文;刘璇;王小强;于洪设计研发完成,并于2024-11-11向国家知识产权局提交的专利申请。
本一种基于生成字幕的多粒度语义对齐文本-视频检索方法在说明书摘要公布了:本发明属于文本‑视频检索领域,具体涉及一种基于生成字幕的多粒度语义对齐文本‑视频检索方法,包括:建立SAEC模型,并对其进行训练,通过训练后的SAEC模型进行文本‑视频匹配检索。本发明提出了一个新的模型SAEC,该模型通过匹配视频中的局部细节并理解视频的全局语义,显著提高了文本到视频的检索准确性,同时,本发明通过联合生成的字幕和视频,使模型不仅能理解视频的直接内容,还能把握更复杂的情境。
本发明授权一种基于生成字幕的多粒度语义对齐文本-视频检索方法在权利要求书中公布了:1.一种基于生成字幕的多粒度语义对齐文本-视频检索方法,其特征在于,包括: 建立SAEC模型,并对其进行训练,通过训练后的SAEC模型进行文本-视频匹配检索,所述匹配检索过程包括全局语义匹配阶段和局部语义匹配阶段; 所述通过训练后的SAEC模型进行文本-视频匹配检索,包括: S1:视频字幕生成; S2:通过全局语义匹配阶段完成视频与文本的全局语义特征对齐,实现匹配检索; 通过全局语义匹配阶段完成视频与文本的全局语义特征对齐,实现匹配检索,包括: S21:使用跨模态注意力层来利用字幕聚合视频特征; 跨模态注意力层的投影表示为: Kv=LNCvWK Vv=LNCvWV 其中,QC表示第一查询矩阵,cc表示字幕嵌入,T表示矩阵转置,WQ表示查询投影矩阵;Cv表示视频的帧嵌入,Kv表示键矩阵,WK表示键投影矩阵;Vv表示值矩阵,WV表示值投影矩阵,LN表示归一化层; S211:将一个字幕嵌入cc∈RD投影到单个查询Qc∈R1×D,将一个视频的帧嵌入Cv∈RF×D投影到键和值矩阵中,其中,D为SAEC模型的潜在维度大小,设为512,Dp为投影维度大小,设为512,RD为D维实数矩阵,R1×D为1×D维实数矩阵,为F×Dp维实数矩阵,RF×D为F×D维实数矩阵; S212:计算查询投影字幕嵌入和视频帧嵌入的点积注意力; S213:基于查询投影字幕嵌入和视频帧嵌入的点积注意力融合视频的重要信息获得全局语义特征,并通过额外的线性层和残差结构进一步丰富模型的表达能力; S22:通过动态路由模块优化字幕特征与视频特征的联合表示,进行视频与文本的全局语义特征对齐,实现匹配检索; S221:将融合后的视频特征和字幕特征串联,然后输入到MLP中,实现知识的再分配,获得能够表示视频和字幕整体语义的全局多模态特征; S3:通过局部语义匹配阶段增强检索结果的相关性; 通过局部语义匹配LSM阶段增强检索结果的相关性,包括: S31:使用自适应池化点积注意力模块进行局部语义匹配,增强检索结果的相关性; S311:将一个文本嵌入ct∈RD投影到单个查询Qt∈R1×D,将一个视频的帧嵌入Cv∈RF×D投影到键和值矩阵中,其中,D为SAEC模型的潜在维度大小,Dp为投影维度大小,RD为D维实数矩阵,R1×D为1×D维实数矩阵,RF×D为F×D维实数矩阵,为F×Dp维实数矩阵; S312:计算查询投影文本嵌入和视频帧嵌入的点积注意力; 313:通过施加投影矩阵将注意力模块中聚合的视频表示投影回RD,得到以文本t为条件的聚合视频嵌入,其中,为Dp×D维实数矩阵; S314:根据聚合视频嵌入获取局部语义特征。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人重庆邮电大学,其通讯地址为:400065 重庆市南岸区南山街道崇文路2号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励