中国科学技术大学毛震东获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉中国科学技术大学申请的专利基于动态全局局部记忆机制的长视频生成方法和系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120976355B 。
龙图腾网通过国家知识产权局官网在2026-03-24发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511498368.X,技术领域涉及:G06T11/60;该发明授权基于动态全局局部记忆机制的长视频生成方法和系统是由毛震东;张勇东;黄梦琪;陈南设计研发完成,并于2025-10-20向国家知识产权局提交的专利申请。
本基于动态全局局部记忆机制的长视频生成方法和系统在说明书摘要公布了:本发明涉及计算机视觉技术领域,公开了一种基于动态全局局部记忆机制的长视频生成方法和系统。方法包括:获取参考图像、线稿序列及文本的特征;通过混合特征提取器融合视觉特征和文本特征,得到混合多模态特征;提取已生成的历史视频片段的全局记忆表示及前一视频片段的局部上下文特征,并与混合多模态特征进行跨注意力融合,将得到的全局视觉特征以跳层注入方式输入视频生成模型,或者将混合多模态特征以跳层注入方式输入视频生成模型,生成视频片段;在去噪过程中设定的后期阶段,对相邻视频片段的重叠区域进行潜空间融合。本发明提升线稿上色过程中的控制精度,并有效保证视频中各元素在时间维度上的色彩属性一致性。
本发明授权基于动态全局局部记忆机制的长视频生成方法和系统在权利要求书中公布了:1.一种基于动态全局局部记忆机制的长视频生成方法,其特征在于,包括: 获取参考图像、线稿序列及文本的特征,将参考图像特征和线稿序列特征拼接为视觉特征; 将文本特征与初始化为随机噪声的视频潜在特征沿维度拼接后,输入视频生成模型; 通过混合特征提取器融合视觉特征和文本特征,得到混合多模态特征;当视频生成模型生成首个视频片段时,将混合多模态特征以跳层注入方式输入视频生成模型,生成视频片段; 当视频生成模型生成非首个视频片段时,通过动态全局局部记忆机制提取已生成的历史视频片段的全局记忆表示及前一视频片段的局部上下文特征,并与所述混合多模态特征进行跨注意力融合,将得到的全局视觉特征以跳层注入方式输入视频生成模型,生成视频片段,包括:生成的前一视频片段定义为局部视频,历史生成的所有视频片段定义为全局视频;和被输入到长视频理解模型,提取M层视觉标记存储在KV缓存中,M层视觉标记的键的集合记为、值的集合记为,表示从长视频理解模型中提取的视觉标记层数;表示的第层视觉标记的键,表示的第层视觉标记的键,表示的第层视觉标记的值,表示的第层视觉标记的值,记为的第层KV缓存特征,记为的第层KV缓存特征;将视觉标记的键和值输入到含有两层多层感知机的映射器中,以与混合多模态特征的维度对齐;将层和的KV缓存特征以及输入到个交叉注意层中,自适应地提取与当前生成相关的全局视觉特征: ; 交叉注意力的查询、键、值;、和为权重参数,表示特征拼接,表示注意力机制中的维度数,表示Softmax函数; 视频生成模型通过对初始化的视频潜在特征进行去噪来生成视频片段,在去噪过程中设定的后期阶段,对相邻视频片段的重叠视频帧进行潜空间融合,使得输出的视频片段序列的色彩一致; 还包括通过颜色一致性的非梯度奖励来提升生成视频片段的色彩一致性:将用于对视频生成模型进行训练的视频片段作为参考视频片段;将生成的视频片段送入长视频理解模型后,通过颜色一致性的非梯度奖励,将得到的KV缓存特征与对应的参考视频片段的KV缓存特征对齐; ; 其中,表示参考视频片段的第层的视觉标记的键和值,为生成视频片段的第层的视觉标记的键和值,为F2范数。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中国科学技术大学,其通讯地址为:230026 安徽省合肥市包河区金寨路96号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励