浙江大华技术股份有限公司冯少迪获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉浙江大华技术股份有限公司申请的专利基于扩散模型的文生图及扩散模型训练方法、装置及设备获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119169434B 。
龙图腾网通过国家知识产权局官网在2025-07-15发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411657510.6,技术领域涉及:G06V10/82;该发明授权基于扩散模型的文生图及扩散模型训练方法、装置及设备是由冯少迪;李元豪;白家男;章合群;吴剑峰;梁巧云;周祥明设计研发完成,并于2024-11-19向国家知识产权局提交的专利申请。
本基于扩散模型的文生图及扩散模型训练方法、装置及设备在说明书摘要公布了:本申请公开了一种基于扩散模型的文生图及扩散模型训练方法、装置及设备,包括:获取样本图片、实例的标注框、局部文本描述及全局文本描述;通过扩散过程加噪;选择训练样本图片划分多个切块;利用扩散模型的交叉注意力模块进行交互注意力计算,得到局部文本描述全局文本描述对各切块的注意力分数;确定该切块所属的文本描述为所属实例的局部文本描述或为空;将训练样本图片的多个切块、各切块所属的文本描述、全局文本描述、各切块所属文本描述对该切块的注意力分数输入扩散模型特征提取,对切块特征图去噪并拼接并扩散模型参数调整。本申请提出了可对多个目标实例的进行精确控制的文生图模型,生成的图像质量更高,内容更丰富,且更加客制化。
本发明授权基于扩散模型的文生图及扩散模型训练方法、装置及设备在权利要求书中公布了:1.一种扩散模型训练方法,其特征在于,所述方法包括: 获取样本图片、样本图片中多个实例的标注框、用于描述各实例的局部文本描述及用于描述样本图片的全局文本描述; 对样本图片通过扩散过程加噪,得到不同时刻的训练样本图片; 选择当前时刻的训练样本图片,并将所述训练样本图片划分多个切块; 基于各实例局部文本描述、所述切块后的训练样本图片及全局文本描述,利用扩散模型的交叉注意力模块进行交互注意力计算,得到局部文本描述全局文本描述对各切块的注意力分数; 若所述切块属于其中一个实例,确定该切块所属的文本描述为所属实例的局部文本描述,否则确定该切块所属的文本描述为空; 将所述训练样本图片的多个切块、各切块的文本描述、全局文本描述、各切块所属文本描述对该切块的注意力分数输入到扩散模型中,利用深度残差网络模块对输入进行卷积运算; 利用交叉注意层采用如下方式计算出QKV矩阵及Kg矩阵、Vg矩阵: ; 基于计算出的QKV矩阵、Kg矩阵、Vg矩阵进行卷积运算提取特征图,其在卷积运算过程中,利用各切块所属文本描述对该切块的注意力分数、全局文本描述对各切块的注意力分数,与扩散模型中的每个交互注意力模块相互作用; 其中,h为深度残差网络模块的输出,WQ为矩阵Q的参数,Wk为矩阵K的参数,WV为矩阵V的参数,MLP表示全连接层,textn表示切块所属的文本描述对应的文本编码,textg表示全局文本描述对应的全局文本编码; 对所述切块特征图去噪并拼接去噪后切块,以输出上一时刻的训练样本图片为目标进行扩散模型参数调整。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人浙江大华技术股份有限公司,其通讯地址为:310053 浙江省杭州市滨江区滨安路1187号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。