北京衔远有限公司田庆祥获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉北京衔远有限公司申请的专利文生图模型训练方法及装置获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN118569320B 。
龙图腾网通过国家知识产权局官网在2025-10-10发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202410731939.9,技术领域涉及:G06N3/0464;该发明授权文生图模型训练方法及装置是由田庆祥;谢树雷;郑元春;白晓东设计研发完成,并于2024-06-06向国家知识产权局提交的专利申请。
本文生图模型训练方法及装置在说明书摘要公布了:本公开提供了一种文生图模型训练方法及装置。该方法包括:获取图像数据集,提取图像数据集中各张人物图像的图像描述;利用各张人物图像及其图像描述构建第一训练数据集;从各张人物图像上分割得到各张人物图像的人物面部图像,利用各张人物图像的人物面部图像和图像描述构建第二训练数据集;将第一训练数据集和第二训练数据集按预设比例组合得到第三训练数据集;为U‑Net网络构建多个LoRA分支,得到去噪微调网络,利用CLIP网络中的文本编码器、VAE网络和去噪微调网络构建文生图模型;利用第三训练数据集训练文生图模型,使得文生图模型学习到人物图像和图像描述。采用上述技术手段,解决现有技术中文生图模型生成图像不合预期的问题。
本发明授权文生图模型训练方法及装置在权利要求书中公布了:1.一种文生图模型训练方法,其特征在于,包括: 获取图像数据集,提取所述图像数据集中各张人物图像的图像描述; 利用各张人物图像及其图像描述构建第一训练数据集; 从各张人物图像上分割得到各张人物图像的人物面部图像,利用各张人物图像的人物面部图像和图像描述构建第二训练数据集; 将所述第一训练数据集和所述第二训练数据集按预设比例组合得到第三训练数据集; 为U-Net网络构建多个LoRA分支,得到去噪微调网络,利用CLIP网络中的文本编码器、VAE网络和所述去噪微调网络构建文生图模型; 利用所述第三训练数据集训练所述文生图模型,使得所述文生图模型学习到人物图像和图像描述; 利用所述第三训练数据集训练所述文生图模型,使得所述文生图模型学习到人物图像和图像描述,包括: 所述第三训练数据集包含多张训练图像,每张训练图像携带一条图像描述,每张训练图像为人物图像或者人物面部图像; 将各张训练图像和其携带的图像描述输入所述文生图模型,在所述文生图模型内部: 通过所述CLIP网络中的文本编码器对各张训练图像携带的图像描述进行编码,得到各张训练图像对应的文本特征; 通过所述VAE网络对各张训练图像进行编码,得到各张训练图像对应的图像特征,其中,所述VAE网络是通过添加噪声的方式对各张训练图像进行编码的; 通过所述去噪微调网络按照各张训练图像对应的文本特征,对各张训练图像对应的图像特征进行解码,得到各张训练图像对应的还原图像,其中,所述去噪微调网络是通过预测所述VAE网络添加的噪声并基于预测的噪声去除噪声的方式对各张训练图像对应的图像特征进行解码的; 利用散度函数计算各张训练图像上所述VAE网络添加的噪声和所述去噪微调网络预测的噪声之间的预测损失值; 依据所述预测损失值优化所述文生图模型的模型参数,以完成对所述文生图模型的训练; 利用散度函数计算各张训练图像上所述VAE网络添加的噪声和所述去噪微调网络预测的噪声之间的预测损失值之后,还包括: 通过鉴别器判断各张训练图像在该张训练图像携带的图像描述的条件下为真实的概率; 通过鉴别器判断各张训练图像对应的还原图像在该张训练图像携带的图像描述的条件下为真实的概率; 基于各张训练图像对应的概率和各张训练图像对应的还原图像对应的概率计算判断损失值; 依据所述预测损失值和判断损失值优化所述文生图模型的模型参数,以完成对所述文生图模型的训练。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京衔远有限公司,其通讯地址为:100080 北京市海淀区颐和园路2号未来科技大厦主楼4层410;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励