华东师范大学林欣获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉华东师范大学申请的专利一种基于扩散模型可推广的布局到图像生成方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119722869B 。
龙图腾网通过国家知识产权局官网在2025-11-04发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411847228.4,技术领域涉及:G06T11/60;该发明授权一种基于扩散模型可推广的布局到图像生成方法是由林欣;孙熙江设计研发完成,并于2024-12-16向国家知识产权局提交的专利申请。
本一种基于扩散模型可推广的布局到图像生成方法在说明书摘要公布了:本发明公开了一种基于扩散模型的可推广的布局到图像生成方法,其特点是该方法包括:构建符合自然语言表达的布局‑文本‑图片数据集;获取图像特征、文本特征和噪声图像特征;生成用于训练的语义布局特征;计算损失更新语义布局编码器参数;给定布局‑文本信息生成图片等步骤。本发明与现有技术相比具有可推广其他微调后的扩散模型上的能力,直接应用到使用个性化数据集进行微调后的扩散模型上,通过布局生成个性化的图片,并可以与其他基于扩散模型的可控生成方法一起使用,方法便捷,效果优异,具有良好的应用前景。
本发明授权一种基于扩散模型可推广的布局到图像生成方法在权利要求书中公布了:1.一种基于扩散模型的可推广的布局到图像生成方法,其特征在于,该方法包括以下步骤: 步骤1:将布局信息和图片信息输入多模态预训练大模型获取文本信息,构建符合自然语言表达的布局-文本-图片数据集; 步骤2:将图像信息和文本信息分别输入图像编码器VAE和文本编码器CLIP-TextEncoder,生成图像特征与文本特征,并对图像特征添加1000次噪声,得到用于训练且满足高斯分布的噪声图像特征; 步骤3:将图像信息、文本信息和布局信息输入语义布局编码器,生成用于训练的语义布局特征; 步骤4:将噪声图像特征、文本特征和语义布局特征输入扩散模型,计算预测的噪声和加入噪声的均方误差,并通过反向传播调整模型参数; 步骤5:训练结束后测试大模型,将给定布局-文本信息输入多模态大语言模型,生成符合布局-文本信息的图片; 所述步骤3具体包括: 3.1:选取任意噪声图像特征,将其输入稳定扩散模型,提取UNet下采样过程中的隐藏层图像特征,位置为64、32、16、8尺寸对应的Transformers模块中的残差卷积层输出特征,作为中间层图像隐特征; 3.2:将文本信息进行编码,填充后获取长度为77的,对于任意的构建一个二值化的掩码,其中1表示该位置应生成与相同语义的图像,0表示该位置不应该生成与相同语义的图像,最终获取一个长度为77的语义布局; 3.3:将隐藏层图像特征与语义布局输入语义布局编码器,获取语义布局特征; 所述步骤3.3将隐藏层图像特征与语义布局输入语义布局编码器,获取语义布局特征,具体包括: 3.3.1:为UNet下采样的64、32、16、8尺寸对应的模块分布构建结构相同的语义布局编码器,具体包括:自注意力层以及交叉注意力层; 3.3.2:将隐藏层图像特征输入语义布局编码器的自注意力层; 3.3.3:将语义布局特征通过注意力增强模块注入交叉注意力层的注意力地图中; 所述步骤3.3.3将语义布局特征通过注意力增强模块注入交叉注意力层的注意力地图中,具体包括: 3.3.3.1:将隐藏层图像特征作为查询,将文本隐特征作为键,通过交叉注意力机制获取注意力地图,其表达式为下述b式所示: b; 3.3.3.2:对于每一个token的注意力地图,获取其最大值和最小值; 3.3.3.3:对于每一个token对应的语义布局特征,将值为1的位置替换为上一步获取的最大值,将值为0的位置替换为上一步获取的最小值,得到含有布局的注意力地图Mlayout,其表达式为下述c式所示; Mlayoutc; 3.3.3.4:将含有布局的注意力地图替换为注意力地图。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人华东师范大学,其通讯地址为:200241 上海市闵行区东川路500号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励