武汉大学叶茫获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉武汉大学申请的专利一种基于扩散模型进行文本引导可控人像生成方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119444933B 。
龙图腾网通过国家知识产权局官网在2025-08-19发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411517967.7,技术领域涉及:G06T11/60;该发明授权一种基于扩散模型进行文本引导可控人像生成方法及系统是由叶茫;张桑绮;余伟设计研发完成,并于2024-10-29向国家知识产权局提交的专利申请。
本一种基于扩散模型进行文本引导可控人像生成方法及系统在说明书摘要公布了:本发明公开了一种基于扩散模型进行文本引导可控人像生成方法及系统,首先将文本提示T输入到CLIP模型中,获取文本嵌入vp;然后基于文本嵌入vp,利用文本姿态生成模型G,提取文本引导条件所指定的姿态引导图;接着利用面部微调模型M,细化姿态引导图的面部关键点的初始估计,输出姿态引导图P;最后给定一张输入图片x0,基于姿态引导图P,利用姿态人像编辑模型,生成编辑后的人像。本发明提出的模型在DF‑PASS数据集上的实验结果验证了该模型的有效性,本发明能有效提高生成图像的灵活性和多样性,减少图像局部模糊,增强图像保真度。
本发明授权一种基于扩散模型进行文本引导可控人像生成方法及系统在权利要求书中公布了:1.一种基于扩散模型进行文本引导可控人像生成方法,其特征在于,包括以下步骤: 步骤1:将文本提示T输入到CLIP模型中,获取文本嵌入; 步骤2:基于文本嵌入,利用文本姿态生成模型G,提取文本引导条件所指定的姿态引导图; 所述文本姿态生成模型G,首先使用一个ReLU激活的线性层将投影到一个1024维的潜在空间中;接着线性级联一个1024维的噪声向量,其中I是一个1024*1024的单位矩阵;然后通过5个上卷积块,在每个上卷积块中,执行一个转置卷积,然后进行批量归一化和ReLU激活;五个转置卷积通过传递最后一个上卷积块的输出来产生G的输出;最后将拼接后的特征图通过具有256个卷积核和LeakyReLU激活的点卷积层,并使用单个卷积核将特征图通过另一个卷积层来估计G的最终标量输出; 步骤3:利用面部微调模型M,细化姿态引导图的面部关键点的初始估计,输出姿态引导图P; 步骤4;给定一张输入图片,基于姿态引导图P,利用姿态人像编辑模型,生成编辑后的人像。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人武汉大学,其通讯地址为:430072 湖北省武汉市武昌区八一路299号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。
请提出您的宝贵建议,有机会获取IP积分或其他奖励