同济大学汪昱获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉同济大学申请的专利一种基于非对称语义优化的文本视频跨模态匹配方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119719800B 。
龙图腾网通过国家知识产权局官网在2025-10-10发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411868548.8,技术领域涉及:G06F18/22;该发明授权一种基于非对称语义优化的文本视频跨模态匹配方法是由汪昱;赵生捷设计研发完成,并于2024-12-18向国家知识产权局提交的专利申请。
本一种基于非对称语义优化的文本视频跨模态匹配方法在说明书摘要公布了:本发明提出了一种基于非对称语义优化的文本视频跨模态匹配方法,该方法通过多粒度特征提取和跨模态交互,利用文本编码模型提取文本的全局和局部特征,图像视觉编码模型提取视频的帧层次和图像块层次特征。通过跨模态注意力模块,文本与视频帧之间的全局匹配相似度被有效计算,并结合细粒度特征进一步优化视频特征表示。最终,通过计算文本特征与视频特征的余弦相似度,完成文本与视频的精准匹配。此外,采用知识驱动的文本编辑机制生成负样本,有效增强了模型的鲁棒性。该方法通过综合运用全局和局部特征、细粒度语义交互以及非对称语义优化,显著提升了文本与视频的匹配精度,能够更好地处理复杂的跨模态检索任务,具有较强的实际应用价值。
本发明授权一种基于非对称语义优化的文本视频跨模态匹配方法在权利要求书中公布了:1.一种基于非对称语义优化的文本视频跨模态匹配方法,其特征在于,包括以下步骤: 步骤S1:给定视频集合和文本查询集合,所述视频集合包括多个视频,所述文本查询集合包括多个文本描述; 步骤S2:通过文本编码模型提取各个文本描述的全局特征和局部特征; 步骤S3:通过图像视觉编码模型提取各个视频的视频帧层次特征和图像块层次特征; 步骤S4:利用跨模态注意力模块和多层线性感知机对文本描述的全局特征与视频的视频帧层次特征进行交互,获得各个视频的全局交互特征与视频中各个帧的全局匹配相似度分数; 步骤S5:基于视频中各个帧的全局匹配相似度分数,具有top-K全局匹配相似度分数的帧被选中作为候选者,将候选者的局部图像块特征与各个文本描述的局部文本特征进行交互,获得各个视频的细粒度交互特征; 步骤S6:将各个视频的全局交互特征与细粒度交互特征进行融合,获得各个视频的最终视频特征; 步骤S7:计算各个文本描述的全局特征与各个视频的最终视频特征的余弦相似度,根据余弦相似度对各个文本描述与各个视频进行匹配; 所述步骤S4包括以下步骤: 对各个文本描述的全局特征和各个视频的视频帧层次特征进行跨模态注意力计算,得到视频帧与文本的全局匹配相似度分数,公式为: 其中,表示层正则化,,和是可学习的映射矩阵,为查询向量,表示经过层归一化并通过映射矩阵转换后的文本特征向量,为键向量,表示经过层归一化并通过映射矩阵转换后的视频帧特征矩阵,为值向量,表示经过层归一化并通过映射矩阵转换后的视频帧特征矩阵,为注意力得分矩阵,通过查询与键的点积计算得到的相似度得分; 通过多层线性感知机MLP进一步处理交互后的特征,得到各个视频的全局交互特征,公式为: 其中,为输出的中间特征,通过将注意力得分矩阵与值向量相乘得到的加权求和结果,包含加权的视频帧信息,其中每一帧的权重由中的相应分数决定,为各个视频的全局交互特征,为多层线性感知机操作; 所述将候选者的局部图像块特征与各个文本描述的局部文本特征进行交互,获得各个视频的细粒度交互特征,公式为: 其中,为各个视频的细粒度交互特征,表示文本序列中标记的长度,为选取帧的候选者数量,表示第个视频帧的M个图像块特征,是具有top-K相似度分数的候选帧的索引集合,表示文本中的第j个标记对应的局部文本特征,T为转置。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人同济大学,其通讯地址为:200092 上海市杨浦区四平路1239号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励