北京卓视智通科技有限责任公司吴柯维获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉北京卓视智通科技有限责任公司申请的专利一种视频理解方法、系统、电子设备和存储介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN118823630B 。
龙图腾网通过国家知识产权局官网在2025-08-22发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202410800187.7,技术领域涉及:G06V20/40;该发明授权一种视频理解方法、系统、电子设备和存储介质是由吴柯维;何晓罡;朱小平;苑荧荧;延瑾瑜设计研发完成,并于2024-06-20向国家知识产权局提交的专利申请。
本一种视频理解方法、系统、电子设备和存储介质在说明书摘要公布了:本发明涉及多模态大模型技术领域,具体公开一种视频理解方法、系统、电子设备和存储介质,包括:按照预设抽帧间隔对视频进行抽帧,得到多个视频帧并编码,得到多个初始编码特征;计算每两个时间相邻的初始编码特征的余弦相似度,并将余弦相似度不大于第一阈值的初始编码特征确定为目标编码特征;当目标编码特征的数量不小于第二阈值时,构建初始时序编码特征并压缩,得到目标时序编码特征;对目标时序编码特征进行映射,得到映射编码特征,并将映射编码特征与目标视频的问题文本token序列输入至训练好的大语言模型,得到回答文本。本发明能够有效提取视频的重要变化信息,避免了信息丢失,从而提升了大语言模型对于视频理解的准确率与效率。
本发明授权一种视频理解方法、系统、电子设备和存储介质在权利要求书中公布了:1.一种视频理解方法,其特征在于,包括: 按照预设抽帧间隔,对目标视频进行抽帧,得到多个目标视频帧并分别进行编码,得到多个初始视频帧编码特征;其中,多个初始视频帧编码特征的特征序列为F_allt,t≤N,N表示初始视频帧编码特征的数量,t为初始视频帧编码特征的帧索引,F_allt为按时间轴排序所得到的第t个初始视频帧编码特征; 计算每两个时间相邻的初始视频帧编码特征之间的余弦相似度,并将余弦相似度不大于第一阈值的两个时间相邻的初始视频帧编码特征确定为目标视频帧编码特征;其中,目标视频帧编码特征的特征序列满足公式:cosine_similarityFh,Fh+1≤th_f;h为目标视频帧编码特征的帧索引,Fh与Fh+1为两个时间相邻的目标视频帧编码特征,th_f为第一阈值,cosine_similarityFh,Fh+1表示Fh与Fh+1之间的余弦相似度; 当目标视频帧编码特征的数量不小于第二阈值时,构建表征所有目标视频帧编码特征的初始时序编码特征并进行特征压缩,得到目标时序编码特征;其中,利用时空注意力模型,构建表征所有目标视频帧编码特征的初始时序编码特征,并利用所述时空注意力模型,对所述初始时序编码特征进行特征压缩,得到固定长度的所述目标时序编码特征Nt代表固定的输出长度,257*1024是时空注意力模型指定的输出尺寸; 对所述目标时序编码特征进行映射,得到映射编码特征,并将所述映射编码特征与所述目标视频对应的问题文本的token序列输入至训练好的大语言模型,得到所述问题文本对应的回答文本;其中,利用投影层,对所述目标时序编码特征进行映射,得到所述映射编码特征;将目标时序编码特征Fv投影到大语言模型的embedding空间,经过投影层后的输出为映射编码特征Fvo;设大语言模型的embedding空间的维度为D,则应有:DimFvo[-1]=D;DimFvo是获取Fvo的维度,[-1]是获取最后一个维度;公式代表Fvo的最后一个维度应等于embedding空间的维度;利用分词器将问题文本中的句子分成一串token,每个token表示一个字或词; 所述大语言模型的训练过程为: 获取每个训练视频的映射编码特征与训练问题文本的token序列,并将任一训练视频的映射编码特征与训练问题文本的token序列输入至所述大语言模型,得到该训练视频的训练问题文本对应的训练回答文本,并根据该训练视频的训练回答文本与真实回答文本之间的差异,得到该训练视频的损失值,直至得到每个训练视频的损失值; 根据每个训练视频的损失值,对所述大语言模型进行参数优化,得到优化后的大语言模型,并将所述优化后的大语言模型作为所述大语言模型并返回执行将任一训练视频的映射编码特征与训练问题文本的token序列输入至所述大语言模型的步骤,直至满足迭代优化条件时,将所述优化后的大语言模型确定为所述训练好的大语言模型;其中,所述大语言模型的损失函数的定义为:N为至少包含真实回答文本的输入序列的长度,V为词汇表的大小;yij取0或者1,当输入序列的第i个单词是词汇表的第j个单词时,其值为1,否则为0;是根据大语言模型的训练回答文本所确定的预测概率,即大语言模型对第i个位置是词汇表中第j个单词的预测概率。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京卓视智通科技有限责任公司,其通讯地址为:100085 北京市海淀区西三旗昌临813号10号楼1层1002;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。