海看网络科技(山东)股份有限公司张鹏获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉海看网络科技(山东)股份有限公司申请的专利一种多模态大模型视频内容理解推理加速方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN121305451B 。
龙图腾网通过国家知识产权局官网在2026-04-17发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511860597.1,技术领域涉及:G06V20/40;该发明授权一种多模态大模型视频内容理解推理加速方法及系统是由张鹏;隆龙;王朋;韩明迅;王光永设计研发完成,并于2025-12-11向国家知识产权局提交的专利申请。
本一种多模态大模型视频内容理解推理加速方法及系统在说明书摘要公布了:本发明公开了一种多模态大模型视频内容理解推理加速方法及系统,主要涉及人工智能推理加速技术领域。包括以下步骤:输入视频数据并对视频数据进行预处理,生成视频帧序列;对生成的视频帧序列执行自适应视频Token压缩,输出压缩视觉Token集;对压缩视觉Token集进行视觉特征编码与Key‑Value生成,得到视觉KV数据;对视觉KV数据进行视频KV缓存分区管理;基于vLLM框架执行跨模态推理,生成视频内容理解结果;输出视频内容理解结果,并进行后处理与结构化映射。本发明的有益效果在于:它能够在保持原有大模型精度的前提下,实现显著的推理加速和吞吐提升。
本发明授权一种多模态大模型视频内容理解推理加速方法及系统在权利要求书中公布了:1.一种多模态大模型视频内容理解推理加速方法,其特征在于,包括以下步骤: 步骤S1:输入视频数据并对视频数据进行预处理,生成视频帧序列; 步骤S2:对步骤S1中生成的视频帧序列执行自适应视频Token压缩,输出压缩视觉Token集; 步骤S3:对步骤S2中输出的压缩视觉Token集进行视觉特征编码与Key-Value生成,得到视觉KV数据; 步骤S4:对步骤S3中得到的视觉KV数据进行视频KV缓存分区管理,为视觉KV分配独立存储区域并设置管理策略; 步骤S5:基于vLLM框架执行跨模态推理,所述跨模态推理包括:生成文本KV数据,并结合视觉KV数据与文本KV数据生成视频内容理解结果; 步骤S6:输出视频内容理解结果,并进行后处理与结构化映射; 步骤S2中,所述自适应视频Token压缩包括以下步骤: 步骤S21:对每一视频帧进行特征提取,得到帧特征向量及PatchToken集合; 步骤S22:计算相邻帧之间的语义变化度,基于余弦距离或融合光流能量进行评估; 步骤S23:根据所述语义变化度与预设阈值,选择关键帧并标记冗余帧; 步骤S24:对每一Patch进行重要度评分,综合特征强度、时序变化和注意力显著性; 步骤S25:对冗余帧中的相似Patch进行分层时序聚合,生成聚合Token; 步骤S26:基于视频内容变化率动态分配Token配额,控制输出Token数量; 步骤S27:对聚合后的Token进行剪枝与输出,并关联元数据; 步骤S28:通过质量控制回路监控压缩比与任务精度,动态调整压缩参数; 步骤S4中,所述进行视频KV缓存分区管理包括: 为视觉KV分配独立存储区域,并设置类型标签进行标识; 对视觉KV段执行持久化操作,维护引用计数,支持跨请求复用; 按需加载或释放视觉KV段,基于引用计数和显存压力触发管理操作; 当引用计数且显存压力超过阈值时,触发释放或溢写操作: ; 对长视频进行分段管理,实现显存友好推理。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人海看网络科技(山东)股份有限公司,其通讯地址为:250000 山东省济南市历下区经十路18567号新广电中心大楼六楼;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励