清华大学深圳国际研究生院袁春获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉清华大学深圳国际研究生院申请的专利一种无需微调的多文本长视频生成方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119697443B 。
龙图腾网通过国家知识产权局官网在2025-09-02发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411816883.3,技术领域涉及:H04N21/472;该发明授权一种无需微调的多文本长视频生成方法是由袁春;王子乐设计研发完成,并于2024-12-11向国家知识产权局提交的专利申请。
本一种无需微调的多文本长视频生成方法在说明书摘要公布了:一种无需微调的多文本长视频生成方法,称为DuFree,利用双流视频扩散模型DVDM,并设计了逐帧提示和维度压缩注意力模块,以确保在多个提示词之间实现平滑过渡,同时保留细节。DVDM通过专家自适应LayerNormAdaLN模块分别处理文本和视觉输入,提升内容质量。逐帧提示模块通过维护提示词队列,实现视频帧间平滑过渡;维度压缩注意力模块压缩多个提示词,缓解训练‑推理差距,保留纹理细节。本方法在自动度量和人类评估中均表现优越,尤其在跟踪强度和时间运动平滑度方面,解决了现有模型在多提示词和长视频生成中的挑战,实现了高质量、时间一致且运动平滑的长视频生成。
本发明授权一种无需微调的多文本长视频生成方法在权利要求书中公布了:1.一种无需微调的多文本长视频生成方法,其特征在于,包括以下步骤: S1、使用基础模型生成N帧视频,并为每一帧添加不同强度的噪声,以模拟不同程度的降质,形成初始去噪队列; S2、维护一个提示词队列,每个提示词对应一个视频帧,初始时提示词队列被第一个提示词填充; S3、通过双流视频扩散模型DVDM处理文本和视觉输入,该模型使用两个专家自适应LayerNorm模块分别处理文本和视觉模态,扩散过程的时间步长作为调制模块; S4、在去噪过程中,逐步切换提示词,以更平滑的方式改变提示词,并在更接近视觉域的空间中进行插值,以实现使用不同提示词的视频生成的平滑过渡; S5、将多个提示词压缩为一个表示,以缓解DVDM中的训练-推理差距,同时保留纹理细节;其中,通过在批次维度上对提示词进行平均,将多个提示词压缩为一个单一的提示词,然后与加噪图像连接,并输入到3D全注意力模块中以计算注意力权重,确定视频中哪些部分应该与文本提示相匹配,并输出加权的视频特征; S6、在去噪队列中,仅更新后半部分的潜在编码,以执行一次去噪步骤,同时利用3D全注意力模块输出的加权视频特征来指导潜在编码的去噪过程,在注意力操作之后,将提示词扩展回原始维度,以使其可以用于最终的视频生成;完成去噪后,队列前面的潜在编码被出队,并在队列末尾被随机采样的高斯噪声所替代,循环进行,以生成长度不受限的视频;其中,结合3D全注意力模块输出的加权视频特征和去噪队列中的最新潜在编码,以及扩展回原始维度的提示词,生成与多个文本提示相对应的视频帧; S7、在去噪队列更新的同时,同步更新提示词队列,以使每个视频帧都对应正确的文本提示。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人清华大学深圳国际研究生院,其通讯地址为:518071 广东省深圳市南山区桃源街道丽水路2279号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。