北京理工大学;航天万源云数据河北有限公司;北京理工大学唐山研究院李长升获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉北京理工大学;航天万源云数据河北有限公司;北京理工大学唐山研究院申请的专利基于深度神经网络模型及多示例学习的视频检索方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119862305B 。
龙图腾网通过国家知识产权局官网在2025-10-10发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411831100.9,技术领域涉及:G06F16/783;该发明授权基于深度神经网络模型及多示例学习的视频检索方法是由李长升;刘刚;李博扬;张颖;李振设计研发完成,并于2024-12-12向国家知识产权局提交的专利申请。
本基于深度神经网络模型及多示例学习的视频检索方法在说明书摘要公布了:本发明涉及计算机视觉处理领域,具体的说是一种基于深度神经网络模型及多示例学习的视频检索方法,包括,对查询文本预训练得到初始特征,对视频提取I3D‑RGB特征及ROI特征及连接特征;更新得到帧级视觉特征及字级文本特征;构造训练用图,图注意力网络学习得到词级文本特征;计算词级文本和字级文本特征残差,残差均值为句子级文本特征;对帧级视觉特征进行段维度平均运算得到管道级视觉特征;计算句子级文本特征、管道级视觉特征的对齐分数,构建正样本对和负样本对,训练视频检索网络;本发明通过深度学习特征获取多查询文本中的鉴别力特征来构造图神经网络,以在弱监督设定下提供更具有表征含义的文本特征及多模态对齐监督信号。
本发明授权基于深度神经网络模型及多示例学习的视频检索方法在权利要求书中公布了:1.一种基于深度神经网络模型及多示例学习的视频检索方法,其特征在于,步骤如下: S1:给定视频及对应的查询文本,查询文本定义为,文本的数量,为视频帧序列,是视频的帧数; 查询文本通过BERT-Base预训练模型得到初始特征; 针对视频提取I3D-RGB特征及ROI特征,将I3D-RGB特征及ROI特征连接起来,得到连接特征; S2:将连接特征通过视觉Transformer网络进行特征更新,得到帧级视觉特征;查询文本初始特征通过文本Transformer网络进行特征更新,得到字级文本特征, ; ; 其中,,是描述句中的最大长度,是嵌入的维度,是串联特征的维度;、、、、、是不同的可学习变换矩阵;、为输入值; S3:通过对多个查询文本的字级文本特征定义边及节点特征,得到构造训练用图; S4:将训练用图输入图注意力网络学习不同节点之间的注意力权重,得到包含丰富相互关系信息的词级文本特征 S5:计算词级文本特征和字级文本特征的残差 并将残差的平均值作为句子级文本特征 对帧级视觉特征在段维度上进行平均运算,获得管道级视觉特征 S6:通过多模态融合模块,计算句子级文本特征、管道级视觉特征的对齐分数;基于对齐分数构建正样本对和负样本对; S7:将正样本对和负样本对输入到预训练的视频检索网络中进行训练,训练过程中,联合互斥消歧损失函数、多示例排序损失函数,获得视频检索网络的总损失,并使用损失函数梯度下降法,回传至视频检索网络更新结构参数,直到视频检索网络的总损失小于设定损失收敛极值,完成训练; S8:将待检索的查询文本和对应的视频输入训练完成的视频检索网络,从而在视频中定位查询文本对应的片段。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京理工大学;航天万源云数据河北有限公司;北京理工大学唐山研究院,其通讯地址为:100081 北京市海淀区中关村南大街5号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励