即梦计算机(北京)有限公司王燕君获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉即梦计算机(北京)有限公司申请的专利基于大模型的长视频处理方法及装置、电子设备和介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120823546B 。
龙图腾网通过国家知识产权局官网在2026-03-24发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511033849.3,技术领域涉及:G06V20/40;该发明授权基于大模型的长视频处理方法及装置、电子设备和介质是由王燕君设计研发完成,并于2025-07-25向国家知识产权局提交的专利申请。
本基于大模型的长视频处理方法及装置、电子设备和介质在说明书摘要公布了:本发明公开了基于大模型的长视频处理方法及装置、电子设备和介质,本发明涉及视频处理技术领域。该装置包括片段分割模块、特征提取模块、缓存机制模块、模型处理模块;通过结构化设计实现长视频高效精准处理;采用SSIM基于内容分割长视频为语义连贯片段,避免冗余帧无效处理,降低大模型单次处理序列长度,减少计算消耗;人物姿态特征通过骨骼关键点坐标平均值浓缩动作趋势,场景语义特征基于语义区域占比平均值反映场景属性,在减冗余的同时最大化保留关键语义;跨片段动态注意力缓存机制实时更新前序特征,通过关联度计算构建融入历史上下文的新特征,解决片段间信息断层;融合特征输入大模型,实现片段细节与跨片段关联协同处理。
本发明授权基于大模型的长视频处理方法及装置、电子设备和介质在权利要求书中公布了:1.基于大模型的长视频处理方法,其特征在于,包括以下步骤: 长视频片段分割步骤:将长视频按时间序列划分为n个片段,通过计算相邻帧的结构相似性SSIM,当SSIM值低于预设阈值θ时确定分割点,将视频分割为片段V1,V2,……,Vn,每个片段包含连续视频帧集合; 关键特征提取步骤:对每个片段Vi提取关键特征,包括:人物姿态特征,通过计算片段内所有帧的骨骼关键点坐标平均值得到片段人物姿态平均特征PPi;场景语义特征,通过计算片段内所有帧的语义区域占比平均值得到片段场景语义平均特征RPi; 所述人物姿态平均特征PPi的计算方式为:片段Vi第j帧的骨骼关键点集合标记为Pij={pi,j,1,pi,j,2,……,pi,j,k},其中pi,j,k=xi,j,k,yi,j,k,xi,j,k和yi,j,k分别为第i个片段第j帧第k个骨骼关键点的横、纵坐标;PPi为片段内所有帧的骨骼关键点坐标平均值,即PPi中第k个关键点坐标为片段内所有帧对应关键点坐标的平均; 跨片段动态注意力缓存机制构建与应用步骤:初始化缓存,处理首个片段V1时,将其关键特征PP1和RP1存储为初始缓存HC={PP1,RP1};处理第i个片段时,其中,i≥2,从缓存获取前序片段Vi-1的关键特征PPi−1和RPi−1,计算当前帧特征与前序特征的关联度,构建融入缓存特征的新特征表示,并更新缓存为HC={PPi,RPi}; 关联度包括人物姿态关联度αi,j,p和场景语义关联度αi,j,s,分别基于当前帧特征与前序片段平均特征的对比计算; 人物姿态关联度的计算方式如下: 先对当前帧的每一个骨骼关键点,分别计算它与前一片段人物姿态中对应关键点的坐标差异,再对每个坐标差异取倒数,最后把所有关键点对应的倒数加总,得到当前帧与前一片段姿态的相似度; 接着另外生成一组随机的骨骼关键点坐标,对当前帧的每一个骨骼关键点,计算它与这组随机关键点中对应点的坐标差异,同样对每个差异取倒数后加总,得到当前帧与随机姿态的相似度; 之后将当前帧与前序特征的相似度,除以当前帧与前一片段姿态的相似度加当前帧与随机姿态的相似度的总和,得到当前帧人物姿态与前一片段人物姿态的关联度,即人物姿态关联度αi,j,p; 场景语义关联度的计算方式如下: 先针对当前帧里任意一类场景语义,先算出它的区域占比和前一片段中同类语义区域占比的差异,再对该差异取倒数,得到当前帧与前一片段同类语义的相似度; 接着另外生成一个随机的该类语义区域占比,计算当前帧该类语义占比与这个随机占比的差异,同样对差异取倒数,得到当前帧与随机语义占比的相似度; 之后将当前帧与前一片段同类语义的相似度除以当前帧与前一片段同类语义的相似度加当前帧与随机语义占比的相似度的总和,得到当前帧该类场景语义与前一片段同类语义的关联度,即场景语义关联度αi,j,s; 对于新特征构建,其方式如下: 先保留当前帧本身的原始特征; 接着把当前帧与前一片段人物姿态的关联度和前一片段的人物姿态平均特征相乘,再乘以一个预先设定的权重系数,得到人物姿态特征的融合项,将其加到原始特征上; 同时对每一类场景语义,都把当前帧该类语义与前一片段同类语义的关联度和前一片段该类语义的平均占比相乘,然后把所有类别的结果加总,再乘以另一个预先设定的权重系数,得到场景语义特征的融合项,也加到原始特征上; 最后得到融入缓存特征的新特征; 模型整体处理与输出步骤:将融合缓存特征的新特征输入Transformer大模型进行处理,整合各片段结果输出长视频理解结果。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人即梦计算机(北京)有限公司,其通讯地址为:100000 北京市丰台区广安路9号院1号楼6层610-15;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励