Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 浪潮软件集团有限公司李玉坤获国家专利权

浪潮软件集团有限公司李玉坤获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉浪潮软件集团有限公司申请的专利基于多模态大模型的文本到视频全链路生成方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120512591B

龙图腾网通过国家知识产权局官网在2025-09-23发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510991328.2,技术领域涉及:H04N21/854;该发明授权基于多模态大模型的文本到视频全链路生成方法及系统是由李玉坤;朱家兵;朱相宇;李超设计研发完成,并于2025-07-18向国家知识产权局提交的专利申请。

基于多模态大模型的文本到视频全链路生成方法及系统在说明书摘要公布了:本发明公开了基于多模态大模型的文本到视频全链路生成方法及系统,属于人工智能生成内容技术领域,通过多个智能体协同工作,分析用户输入文本,构建跨模态记忆库,基于记忆库内容确保生成分镜的视频和音频的统一,实现从文本到视频的全流程自动生成;该方法的实现包括以下步骤:获取用户文本输入;文本分析,通过协同工作的Agent,从输入文本中动态提取、分析、生成、关联、存储图文音多模态信息,构建多模态记忆库;生成分镜,根据记忆库生成分镜视频和音频;音视频合成,音画同步对齐后形成最终视频。本发明能够实现长视频生成的叙事连贯性、提高分镜图的特征一致性、增强跨模态情感的一致性、减少人工干预、提高视频制作的效率。

本发明授权基于多模态大模型的文本到视频全链路生成方法及系统在权利要求书中公布了:1.基于多模态大模型的文本到视频全链路生成方法,其特征在于,通过多个智能体协同工作,分析用户输入文本,构建跨模态记忆库,基于记忆库内容确保生成分镜的视频和音频的统一,实现从文本到视频的全流程自动生成;该方法的实现包括以下步骤: 步骤一:获取用户文本输入; 步骤二:文本分析,通过协同工作的Agent,从输入文本中动态提取、分析、生成、关联、存储图文音多模态信息,构建结构化的、用于指导后续视频生成的多模态记忆库;记忆库中内容包含图片、声音、文字; 步骤三:生成分镜,根据记忆库生成分镜视频和音频;分镜音视频生成时,将情感提示词同时且同步地指导视频生成和语音合成; 步骤四:音视频合成,音画同步对齐后形成最终视频; 所述文本分析,具体实现步骤如下: (2.1)通过agent1,输入用户输入文本,获取文本的类型、风格和主题信息; (2.2)根据文本类型、风格、主题自动从图像风格库中选择图像风格参考图片,如果没有对应的风格,通过agent2,输入文本类型、风格、主题和用户输入文本,生成图像风格参考图片提示词,并通过agent6生成图像风格参考图片存入图像风格库中; (2.3)通过agent3,输入文本类型、风格、主题,获取旁白音色特征,并从音色库中选择音色; (2.4)通过agent4,输入用户文本输入,获取文本输入中出现的所有场景、人物、道具、服装、其他实体,并按json格式输出; (2.5)对于agent4输出的每一个实体,通过agent5,输入用户文本输入、文本风格和实体名,获取该实体的文中对应描述,实体特征、图片生成提示词,其中对于每一类实体,使用不同的提示词; (2.6)对于agent4输出的每一个实体,根据实体特征从设计库中获取对应的实体参考图片,如果没有对应,通过agent6,输入agenet5生成的图片生成提示词,获取对应的参考图片并添加到设计库中; (2.7)对于agent4输出的每一个“人物”实体,通过agent7,输入步骤(2.6)中获取的人物参考图片和所有“服装”参考图片,获取穿着指定服装的人物参考图片; (2.8)对于每个步骤(2.6)中生成的实体参考图片和步骤(2.7)中生成的人物参考图片,通过agent8,输入图像风格参考图片和实体参考图片,获取图片风格迁移后统一风格的实体图片; (2.9)对于agent4输出的有“台词”的实体,通过agent3,输入文本风格和实体特征,获取配音音色特征,并从音色库中选择音色; 所述步骤三,具体实现步骤如下: (3.1)通过agent9,输入用户输入文本和记忆库中的文本类型、风格、主题,分析叙事结构,划分场景或镜头,生成包含镜头描述的分镜列表,并统计分镜中出现的背景、人物、服饰、道具和其他实体列表; (3.2)对于每一个分镜,从记忆库中获取图像风格参考图和分镜中出现的背景、人物、服饰、道具和其他实体列表信息;然后执行步骤(3.3)至步骤(3.7); (3.3)通过agent10,输入分镜描述和分镜中出现的实体信息描述,获取分镜图提示词、分镜视频提示词、每句对话的情感提示词; (3.4)对于每一个分镜,通过agent11,输入分镜图提示词、背景图、人物图、其他出现的实体图,获取分镜参考图; (3.5)对于每一个分镜,通过agent8,输入图像风格参考图片和分镜参考图,通过图像风格迁移技术,获取风格统一的分镜图,确保所有分镜图视觉风格统一,解决多镜头画风不一致的问题; (3.6)对于每一个分镜,通过agent12,输入分镜图和分镜视频提示词和情感提示词,获取分镜视频; (3.7)对于每一句对话,通过agent13,输入人物对应的音色、台词、情感提示词,获取对话音频,音频与视频生成使用相同的情感提示词; 所述步骤四,具体实现步骤如下: (4.1)创建草稿:通过agent14创建视频草稿,然后对于每个分镜执行步骤(4.2)至步骤(4.3); (4.2)动作音频匹配,对于每个分镜,通过agent15,输入分镜镜头描述和分镜视频,确定对白和背景音效的开始结束时间; (4.3)将视频、音频、文本插入到时间轴,通过agent14,输入视频、音频、文本及对应的开始结束时间,将视频插入到时间轴,然后根据对白开始时间偏移将音频和字幕插入到时间轴中; (4.4)选择背景音乐,通过agent16,输入分镜列表,从背景音乐库中选择合适的背景音乐列表并给出背景音乐对应的开始、结束时间; (4.5)将背景音乐插入到时间轴中,通过agent14,输入背景音乐和对应的背景音乐对应的开始、结束时间,将背景音乐插入到视频草稿的时间轴中; (4.6)渲染输出。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人浪潮软件集团有限公司,其通讯地址为:250000 山东省济南市高新区浪潮路1036号S02楼;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由AI智能生成
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。