南京信息工程大学周铖昊获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉南京信息工程大学申请的专利一种基于CLIP损失与感知损失的扩散模型LoRA微调优化方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119478587B 。
龙图腾网通过国家知识产权局官网在2025-06-10发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510027124.7,技术领域涉及:G06V10/774;该发明授权一种基于CLIP损失与感知损失的扩散模型LoRA微调优化方法及系统是由周铖昊;项正龙;薛羽;田伟;钟水明;徐昕设计研发完成,并于2025-01-08向国家知识产权局提交的专利申请。
本一种基于CLIP损失与感知损失的扩散模型LoRA微调优化方法及系统在说明书摘要公布了:本发明提出了一种基于CLIP损失与感知损失的扩散模型LoRA微调优化方法及系统,所述方法包括:步骤1,在LoRA微调过程中,结合CLIP损失和感知损失,动态调整CLIP损失和感知损失的权重;步骤2,利用CLIP模型计算去噪后的中间图像与目标文本的语义相似度,并根据相似度差异优化扩散模型的噪声预测能力;步骤3,采用感知损失计算中间图像与目标图像在特征空间的差异,并优化扩散模型的噪声预测能力,提升生成图像的视觉质量与细节保真度;步骤4,根据训练进展调整是否启用CLIP损失和感知损失。通过引入CLIP损失,模型在微调训练过程中能够更好地将图像与文本进行对齐,使得生成的图像更加符合文本提示的描述。
本发明授权一种基于CLIP损失与感知损失的扩散模型LoRA微调优化方法及系统在权利要求书中公布了:1.一种基于CLIP损失与感知损失的扩散模型LoRA微调优化方法,其特征在于,包括如下步骤:步骤1,在LoRA微调过程中,结合感知损失,并根据损失变化幅度引入CLIP损失,训练时动态调整CLIP损失和感知损失的权重;步骤1中,采用稳定扩散模型作为预训练扩散模型,在训练阶段使用VAE模型将图像压缩到潜在空间中进行计算;所述VAE模型包括编码器encoder和解码器decoder,编码器用于将图像压缩到潜在空间中,解码器用于将图像大小还原;在LoRA微调过程中,采用如下公式计算常规损失标准差: 其中,k是滑动窗口大小;是滑动窗口内平均损失值;当常规稳定扩散模型损失在k步内标准差小于等于阈值θ时,判定常规损失趋于稳定,此时启用CLIP损失;表示当前时间步,t表示从到窗口中所有能采样到的时间步;Lt表示在当前采样步骤下,计算出的常规稳定扩散模型损失;常规稳定扩散模型损失定义为: 其中yi表示真实噪声,表示稳定扩散模型预测噪声;N表示一个批次中的样本数量;步骤2,随机采样时间步t,利用CLIP模型计算去噪后的中间图像与目标文本的语义相似度,并根据相似度差异优化扩散模型的噪声预测能力;步骤3,采用感知损失计算中间图像与目标图像在特征空间的差异,并优化扩散模型的噪声预测能力;步骤4,根据训练过程中是否启用CLIP损失,动态调整加权损失函数;步骤4包括:定义如下最终损失函数:Ltotal=Lt+αLclip+Lperc,其中,Ltotal指的是总损失值,Lclip为CLIP损失,Lperc为感知损失,当未达到CLIP损失启用条件时,参数α设置为0;在CLIP损失启用后,α设置为1。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人南京信息工程大学,其通讯地址为:211899 江苏省南京市江北新区华富路1号数智溪谷4号楼;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。