西安电子科技大学王笛获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉西安电子科技大学申请的专利基于预训练模型的视频文本检索方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116109960B 。
龙图腾网通过国家知识产权局官网在2025-09-05发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210804157.4,技术领域涉及:G06V20/40;该发明授权基于预训练模型的视频文本检索方法是由王笛;王泉;李锦峰;万波;田玉敏;刘锦辉;王义峰;罗雪梅;安玲玲;赵辉设计研发完成,并于2022-07-07向国家知识产权局提交的专利申请。
本基于预训练模型的视频文本检索方法在说明书摘要公布了:本发明公开了一种基于预训练模型的视频文本检索方法,主要解决现有方法中数据特征异质性及冗余级联造成视频文本匹配精度低的问题;方案包括:1获取视频数据集的帧序列及文本标注切分产生的文本序列;2采用图文预训练模型协同提取视频和文本的特征;3将视频以块级联形式映射,同时将协同提取应用到视频的聚合阶段,以文本表征指导聚合视频帧级特征;4加入交叉方向上的先验概率并使用分散约束损失,完成模型训练;5利用训练好的视频文本匹配模型得到最终检索结果。本发明能够有效减少不同模态之间的语义鸿沟,充分挖掘视频模态数据中的复杂时空信息,提升跨模态检索精度。
本发明授权基于预训练模型的视频文本检索方法在权利要求书中公布了:1.一种基于预训练模型的视频文本检索方法,其特征在于,利用图文预训练模型得到的先验知识协同提取视频帧特征和自然语言文本特征,构建共同的语义子空间,使用文本知识聚合视频特征,并利用交叉熵损失和分散约束损失函数训练视频文本检索模型;实现步骤包括如下: 1处理数据集: 选择待训练的视频数据集V和其对应的文本标注T,将视频数据集通过视频图像生成工具按照预先指定的采样频率均匀采样,得到视频数据集的帧序列其中表示视频数据集中第i个视频的第j帧图片;j=1,2,...,N,N表示视频中的帧图片数目;i=1,2,...,M,M表示视频集中的视频数量;同时,将文本标注切分成单词并按顺序存储,得到T产生的文本序列其中表示视频数据集中第i个视频对应的文本标注Ti被切分后的第k个单词,k=1,2,...,m,m表示文本标注包含的单词总数; 2协同提取视频文本特征: 提取图片的RGB特征,即红、绿、蓝颜色特征,得到3组特征矩阵;将所有视频帧序列中每一帧图片的RGB特征全部提取出来后,按照既定步长stride将每一帧图片切割为n×n的块,并将位置信息与块特征级联后分别输入到预训练的视觉特征编码器VisualTransformer中得到第i个视频的帧级表征序列将文本序列输入文本特征编码器TextTransformer中,使用文本特征编码器最后一层[EOS]指令对应的特征作为输入文本序列的表征; 3生成视频文本的全局特征表示: 3.1使用一层全连接层对第i个视频的帧级表征序列和对应文本序列的表征进行映射,然后进行归一化操作得到第i个视频映射后帧序列和第i个视频的文本特征其中表示第i个视频映射后的第j帧图片特征,并计算得到两者的相似性 3.2将第i个视频Vi的所有帧图片特征与文本特征求相似度后得到的序列通过自下而上的多头自注意力机制,进行增强视频模态数据内的细微交互,得到增强后帧序列的表征 其中ω1∈R2D×D,ω2∈RD×2D,D表示每一帧特征的维度;tanh表示第一激活函数;表示视频Vi的第j帧表征; 3.3采用LSTM网络构造视频时序性信息,随机初始化LSTM参数信息,得到第i个视频Vi的时序序列 其中,表示第i个视频Vi第j帧的权重; 3.4根据增强后帧序列的表征和时序序列获取视频Vi的全局特征同时,通过门控模块GateEmbedding将第i个视频对应的文本标注Ti映射至公共语义嵌入空间,获取文本标注Ti的全局特征Zi; 4通过对视频Vi的全局特征和文本标注Ti的全局特征Zi两者计算余弦相似度,得到视频文本匹配模型; 5训练模型: 5.1计算视频和文本交叉方向的先验概率,即分别计算视频特征对所有视频中所对应文本特征的先验概率和文本特征对所有视频中全部视频特征的先验概率 5.2将交叉方向的先验概率和引入到交叉熵损失中,得到分别表示视频到文本的匹配损失和文本到视频的匹配损失 5.3使用分散约束损失Lc对视频分布进行约束: 其中,ci表示一个批次中所有视频特征的均值,B表示批次大小,γ和μ分别表示第一和第二调节参数; 5.4得到用于模型训练的总损失函数L: 5.5根据总损失函数L迭代训练模型参数,以等差的方式更新网络的学习率、神经元丢弃率和损失函数的参数值,直到L收敛至最小,得到训练好的视频文本匹配模型; 6对视频文本进行跨模态互检索: 将待检索的视频文本输入训练好的视频文本匹配模型中,并对模型输出结果进行排序,得到最终检索结果。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人西安电子科技大学,其通讯地址为:710071 陕西省西安市太白南路2号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。