中山大学周凡获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉中山大学申请的专利一种视频时刻检索和高光片段检测方法与系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119862304B 。
龙图腾网通过国家知识产权局官网在2025-12-05发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411773122.4,技术领域涉及:G06F16/783;该发明授权一种视频时刻检索和高光片段检测方法与系统是由周凡;吴润迅;林淑金;林格设计研发完成,并于2024-12-04向国家知识产权局提交的专利申请。
本一种视频时刻检索和高光片段检测方法与系统在说明书摘要公布了:本发明公布了一种视频时刻检索和高光片段检测方法,包括:使用预训练的特征提取网络提取视频中的原始特征,将其通过特征激活层和空洞卷积层,采用卷积驱动的多模态融合模块进行跨模态特征融合;利用给定的视频‑文本对生成负样本对,并借助正负样本之间的差异辅助训练;通过显著性预测头和特征解码器,计算时刻检索的区间与高光检测的显著性分数以计算损失,并生成模型整体损失函数;最后通过损失训练优化模型,生成预测结果。本发明充分利用了各模态之间的互补性,从而提高了模型对数据的理解和表征能力。与传统模型相比,本发明采用的方法显著地降低了计算量和参数量,能够充分利用模态互补性,提高了模型的精确度。
本发明授权一种视频时刻检索和高光片段检测方法与系统在权利要求书中公布了:1.一种视频时刻检索和高光片段检测方法,其特征在于,所述方法包括: 输入数据集,使用预训练的特征提取网络提取得到视频中的原始特征,包括视频中的视频特征和文本特征; 采用卷积驱动的多模态融合模块,输入所述提取得到的视频中的原始特征,通过特征激活层和空洞卷积层,输出融合后的跨模态特征; 输入所述提取得到的视频中的原始特征,利用给定的视频-文本对生成负样本对,最终生成负样本集,从而使得视频和文本的关联具有唯一性,增加训练样本的多样性; 输入所述融合后的跨模态特征和负样本集,通过显著性预测头和特征解码器,计算时刻检索的区间与高光检测的显著性分数,分别用于计算时刻检索与高光检测的损失,生成模型整体损失函数; 利用模型整体损失函数,通过损失训练优化联合视频时刻检索与高光检测模型,输出训练完成后的模型和最终的时刻检索预测与高光检测预测结果; 具体地,所述采用卷积驱动的多模态融合模块,输入所述提取得到的视频中的原始特征,通过特征激活层和空洞卷积层,输出融合后的跨模态特征,具体为: 采用提取得到的视频特征V和文本特征T,在特征激活层对文本特征T进行压缩和扩张处理,利用各模态之间的互补性,捕捉多模态特征之间的相互作用;分别采用平均池化、最大池化以及GRU三种不同的特征压缩方法,对文本特征T进行压缩,压缩处理后扩张到和视频特征V相同的维度,再与视频特征进行拼接并映射回视频特征原来的维度,公式如下: X=LinearConcat[V,T′] 其中,X为处理后的融合特征,T′表示经过其中一种所述特征压缩方法进行压缩并扩张后的文本特征,Concat表示拼接操作,Linear表示全连接层; 通过上述视频特征与文本特征的相互嵌入,在文本特征的引导下,视觉特征的特定时刻区域被充分激活,从而能够更准确地反映视频中的视觉信息和文本信息; 输入所述处理后的融合特征X,将X输入多层空洞卷积网络层,在卷积核之间引入间隔来扩大感受野,在卷积层中间加入BatchNorm和Relu层,在多层空洞卷积操作中,视频特征和文本特征的交互信息会逐层传递,经过多层空洞卷积网络层之后得到输出的多模态特征G。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中山大学,其通讯地址为:510006 广东省广州市海珠区新港西路135号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励