武汉大学叶茫获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉武汉大学申请的专利基于多模态控制的可控人物图像生成方法、系统及产品获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120635230B 。
龙图腾网通过国家知识产权局官网在2026-03-06发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510665628.1,技术领域涉及:G06T11/60;该发明授权基于多模态控制的可控人物图像生成方法、系统及产品是由叶茫;杨之典;王同鑫设计研发完成,并于2025-05-22向国家知识产权局提交的专利申请。
本基于多模态控制的可控人物图像生成方法、系统及产品在说明书摘要公布了:本发明公开了一种基于多模态控制的可控人物图像生成方法、系统及产品,首先获取多模态输入数据,包括文本数据、姿势图像数据和外观图像数据;然后将模态输入数据转换为特征嵌入,通过跨模态注意力机制,将这些不同模态的条件信息结合,分别生成统一的姿势条件嵌入和统一的外观条件嵌入;接着将姿势条件嵌入和外观条件嵌入输入基于transformer的潜在扩散模型中进行推理,获得空间特征;最后将获得的空间特征通过VAE解码器生成最终图像。本发明将多模态输入和潜伏扩散模型的结合,实现了在复杂条件下的对生成图像的精确控制,能够生成高质量、符合用户需求的人物图像,极大地扩大了人物图像生成技术在虚拟试穿、数字内容创作和娱乐等领域的适用范围。
本发明授权基于多模态控制的可控人物图像生成方法、系统及产品在权利要求书中公布了:1.一种基于多模态控制的可控人物图像生成方法,其特征在于,包括以下步骤: 步骤1:获取多模态输入数据,包括文本数据、姿势图像数据和外观图像数据;其中文本数据包括姿势文本和外观文本; 步骤2:使用文本编码器将姿势文本数据转换为姿势文本特征,将姿势图像数据分块后直接作为姿势特征,姿势图像特征和姿势文本特征通过多模态输入模块进行自注意力信息交互生成统一的姿势条件嵌入;使用图像编码器将外观图像数据转换为特征嵌入后再分块作为外观条件嵌入; 所述多模态输入模块,将姿势文本特征和姿势图像特征连接起来,之后经过线性投影层,加上位置编码,经过若干transformer基础块获得统一的姿势条件嵌入; 所述transformer基础块,包括层归一化层、多头自注意力层、残差连接层、前馈神经网络层;所述层归一化层和多头自注意力层顺序连接,输出与所述归一化层经过所述残差连接层并归一化处理后输入所述前馈神经网络层;所述前馈神经网络层的输入与输出经过所述残差连接层并归一化处理后输出; 步骤3:将姿势条件嵌入和外观条件嵌入输入基于transformer的潜在扩散模型中进行推理,预测前向步骤中添加的噪声; 所述基于transformer的潜在扩散模型,包括transformer基础块、外观控制块和姿势控制块,外观控制块和姿势控制块分别接收外观条件嵌入和姿势条件嵌入作为输入; 为了在生成过程中注入外观和姿态控制信号,采用了交叉注意机制: 其中,,和分别是查询、键和值的权重矩阵;键和值由统一条件嵌入变化而来,而查询由基础块的维中间嵌入推导而来; 在推理阶段,采用无需累计分类器的技术来预测每个时间的噪声: 其中是噪声预测器,和是统一的条件嵌入,和分别是相应的指导尺度;为第t步的潜在特征,为模态置为空时的条件嵌入特征; 步骤4:循环迭代步骤3,预测每一步的噪声,进行逐步去噪,生成最终图像。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人武汉大学,其通讯地址为:430072 湖北省武汉市武昌区八一路299号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励