山东大学胡宇鹏获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉山东大学申请的专利一种基于对应学习的点级监督视频片段定位方法及系统与应用获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119649260B 。
龙图腾网通过国家知识产权局官网在2025-10-24发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411437227.2,技术领域涉及:G06V20/40;该发明授权一种基于对应学习的点级监督视频片段定位方法及系统与应用是由胡宇鹏;王锟;刘皓;揭礼榕;聂佳佳;邱国志设计研发完成,并于2024-10-15向国家知识产权局提交的专利申请。
本一种基于对应学习的点级监督视频片段定位方法及系统与应用在说明书摘要公布了:本发明涉及一种基于对应学习的点级监督视频片段定位方法及系统与应用,属于目标视频片段定位技术领域,包括:先通过预训练模型提取特征,获得增强的视觉表示与增强的文本表示,对其进行处理,获得多粒度的文本表示与多粒度的视觉表示;最后对多粒度的文本表示最大池化,得到整合了整个句子语义信息的表示;在训练阶段利用高斯分布结合关键帧,对不同的视频片段进行度量;在推理阶段先识别出视频与查询的最佳匹配关键点再从该点扩展以获得与查询最相似的预测视频片段;利用由全局对齐损失、帧‑片段对应损失、片段‑帧对应损失三部分构成的模型损失优化模型。本发明解决了点监督下进行视频片段定位存在的粒度与尺度问题,有效提升了模型性能。
本发明授权一种基于对应学习的点级监督视频片段定位方法及系统与应用在权利要求书中公布了:1.一种基于对应学习的点级监督视频片段定位方法,其特征在于,包括: 1对未修剪的视频与查询文本先通过预训练模型提取特征,再通过全连接层,获得增强的视觉表示与增强的文本表示; 2对通过特征提取模块获得的增强文本表示与增强视觉表示通过跨模态多头注意力机制进行进一步处理,再将经过处理后获得的跨模态文本表示、跨模态视觉表示与最后一层跨模态多头注意力机制得到的跨模态注意分数输入到粒度对应对齐模块进行处理,获得多粒度的文本表示与多粒度的视觉表示; 最后对多粒度的文本表示进行最大池化,得到整合了整个句子语义信息的表示; 粒度对应对齐模块包括: Ⅰ、使用由跨模态注意力分数组成的矩阵作为粒度感知矩阵,如下所示: 其中是跨模态注意力分数矩阵,T和L分别是帧和单词的数量,而sij是第i帧和第j单词之间的注意力分数;每列中分数代表了单词对视频帧的关注程度; Ⅱ、使用取最大值函数来聚合每一行中的信息,以获得查询词相对于视频帧的潜在先验分布公式为: Ⅲ、计算查询语句和原始视频帧之间的余弦相似度,以获得完整查询句相对于视频帧的先验分布, 其中cos·是余弦相似度函数,为增强的视觉表示,为增强的文本表示; Ⅳ、使用来局部自注意力感知和汇集的全局粒度信息的最佳粒度信息,这些信息被平均并用作自适应视觉粒度感知特征,该过程表示为:为完整查询句相对于视频帧的潜在先验分布,得到视觉粒度感知向量 Ⅴ、在此基础上,使用获得的特征来重构具有文本特征的交叉模态融合, 为增强的视觉表示,为重新建模的视觉特征; Ⅵ、将得到的特征应用于跨模态语义交互,经过上述步骤,使用先前的语义知识来优化视觉词相关性;最后,使用加权平均方法来控制原始模态特征信息,具体如下: 其中α是平均加权因子; 对于文本模态,将增强的文本表示输入到步骤2中的粒度对应对齐模块,得到文本模态的多粒度表示因此,该步骤通过多模态交互获得最终的多粒度表示和 3片段定位,包括训练阶段和推理阶段; 在训练阶段,利用高斯分布结合关键帧,对不同的视频片段进行度量; 在推理阶段会先识别出视频与查询的最佳匹配关键点再从该点扩展以获得与查询最相似的预测视频片段; 4利用由全局对齐损失、帧-片段对应损失、片段-帧对应损失三部分构成的模型损失优化模型; 5将需要定位的视频与文本导入优化后的模型,得到定位的视频片段。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人山东大学,其通讯地址为:250100 山东省济南市历城区山大南路27号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励