深圳市明源云科技有限公司钟宇获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉深圳市明源云科技有限公司申请的专利文本到图像生成方法、装置、设备、存储介质及产品获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN121330091B 。
龙图腾网通过国家知识产权局官网在2026-04-07发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511862937.4,技术领域涉及:G06T11/10;该发明授权文本到图像生成方法、装置、设备、存储介质及产品是由钟宇;陈晓晖;黄浩翔;李冠文;杨卫设计研发完成,并于2025-12-11向国家知识产权局提交的专利申请。
本文本到图像生成方法、装置、设备、存储介质及产品在说明书摘要公布了:本申请公开了一种文本到图像生成方法、装置、设备、存储介质及产品,涉及人工智能技术领域,公开的文本到图像生成方法包括:接收输入文本,通过大语言模型解析输入文本中的多个语义实体及语义实体之间的空间关系,得到输入文本对应的布局信息,其中,布局信息包括各语义实体在图像中的位置范围;将布局信息转换为与扩散模型潜空间特征图尺寸对应的掩码集合;将掩码集合和输入文本输入扩散模型,并在扩散模型对输入文本的去噪过程中,基于掩码集合进行语义校正,得到目标图像。本申请能够提高文本到图像生成时生成图像与输入文本的匹配度。
本发明授权文本到图像生成方法、装置、设备、存储介质及产品在权利要求书中公布了:1.一种文本到图像生成方法,其特征在于,所述文本到图像生成方法包括: 接收输入文本,通过大语言模型解析所述输入文本中的多个语义实体及所述语义实体之间的空间关系,得到所述输入文本对应的布局信息,其中,所述布局信息包括各所述语义实体在图像中的位置范围; 将所述布局信息转换为与扩散模型潜空间特征图尺寸对应的掩码集合; 将所述掩码集合和所述输入文本输入所述扩散模型,并在所述扩散模型对所述输入文本的去噪过程中,基于所述掩码集合进行语义校正,得到目标图像; 所述语义校正包括迭代语义校正和或自循环语义校正; 所述在所述扩散模型对所述输入文本的去噪过程中,基于所述掩码集合进行语义校正,得到目标图像的步骤,包括: 在所述扩散模型对所述输入文本的去噪过程中,基于所述掩码集合执行所述迭代语义校正以更新图像潜变量,和或执行所述自循环语义校正以更新文本嵌入向量; 根据更新后的图像潜变量和或更新后的文本嵌入向量,通过所述扩散模型对所述输入文本进行去噪处理,得到目标图像; 所述基于所述掩码集合执行所述迭代语义校正以更新图像潜变量的步骤,包括: 在所述去噪过程的多个时间步中,基于所述掩码集合与所述扩散模型生成的第一交叉注意力图,计算交叉注意力损失,所述交叉注意力损失用于约束各所述语义实体的文本词元注意力集中于对应的掩码区域; 基于所述掩码集合与所述扩散模型生成的自注意力图,计算自注意力损失,所述自注意力损失用于加强各所述语义实体对应掩码区域内部的像素关联性; 将所述交叉注意力损失与所述自注意力损失结合得到潜变量总损失; 根据所述潜变量总损失,对所述去噪过程中的图像潜变量进行更新。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人深圳市明源云科技有限公司,其通讯地址为:518000 广东省深圳市南山区粤海街道高新区社区高新南十道16号金地威新中心A座801;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励