南京大学;中国移动通信有限公司研究院;中国移动通信集团有限公司;中国移动通信集团江苏有限公司王利民获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉南京大学;中国移动通信有限公司研究院;中国移动通信集团有限公司;中国移动通信集团江苏有限公司申请的专利一种基于迭代式分层关键帧选取的长视频理解方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119785258B 。
龙图腾网通过国家知识产权局官网在2025-12-05发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411749287.8,技术领域涉及:G06V20/40;该发明授权一种基于迭代式分层关键帧选取的长视频理解方法是由王利民;黄振鹏;李嘉骐;陈茜;张拯明;李新浩设计研发完成,并于2024-12-02向国家知识产权局提交的专利申请。
本一种基于迭代式分层关键帧选取的长视频理解方法在说明书摘要公布了:一种基于迭代式分层关键帧选取的长视频理解方法,首先对输入的视频进行层次化帧采样,得到层次化的视觉特征,然后由一个关键帧查询模块对视频帧的第N层视觉特征与输入的问题文本,结合上下文语义进行视频关键帧查询生成查询向量,预测是否足以对输入的问题生成回答,如果不满足,则在帧率更高的第N+1层视觉特征中更新查询关键帧,再次与输入的问题文本结合上下文语义进行关键帧的迭代查询,直至足以对问题生成回答,将查询得到的关键帧与指令或问题输入多模态大模型生成理解结果。本发明基于用户输入问题对视频帧进行查询并筛选出关联的帧,进而提升长视频理解的性能和效率,在文娱、安防、教育等场景中有着广泛的应用前景。
本发明授权一种基于迭代式分层关键帧选取的长视频理解方法在权利要求书中公布了:1.一种基于迭代式分层关键帧选取的长视频理解方法,其特征是基于多模态大模型构建视频理解模型,对输入的视频采用层次化帧采样逐步提取视觉信息,结合输入的指令或问题进行关键帧查询,基于对关键帧的理解生成对问题的回答,包括:首先对输入的视频进行层次化帧采样,从低帧率采样逐步到高帧率采样,由多模态大模型的视觉编码器对不同帧率的采样结果抽取得到层次化的视觉特征,然后由一个关键帧查询模块对视频帧的第N层视觉特征与输入的指令或问题文本,结合上下文语义进行视频关键帧的查询,生成查询向量,根据查询向量预测是否足以对输入的问题生成回答,如果不满足,则利用帧率更高的第N+1层视觉特征与本轮查询向量进行相似度计算,得到第N+1层的关键帧,与已获取的前N层的关键帧一起再次与输入的指令或问题文本由关键帧查询模块进行关键帧的迭代查询,直至足以对问题生成回答,将查询得到的关键帧与指令或问题由多模态大模型生成理解结果。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人南京大学;中国移动通信有限公司研究院;中国移动通信集团有限公司;中国移动通信集团江苏有限公司,其通讯地址为:210093 江苏省南京市鼓楼区汉口路22号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励