厦门大学戴平阳获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉厦门大学申请的专利使用扩散模型监督视觉语言模型训练的方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120580446B 。
龙图腾网通过国家知识产权局官网在2025-11-21发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511094970.7,技术领域涉及:G06V10/40;该发明授权使用扩散模型监督视觉语言模型训练的方法是由戴平阳;纪荣嵘;曹刘娟;孙震设计研发完成,并于2025-08-06向国家知识产权局提交的专利申请。
本使用扩散模型监督视觉语言模型训练的方法在说明书摘要公布了:本发明公开了一种利用扩散模型监督视觉语言模型训练的方法。该方法输入图像与文本,通过视觉编码器提取多层次图像特征,并结合连接器输出的文本特征,作为条件信息输入至扩散模型中。核心为提出一种混合专家交叉注意力机制:分别对低、中、高层图像特征及文本特征构建独立注意力分支,并通过门控路由机制动态融合这些特征。融合特征用于指导图像逐步重建,输出最终图像结果。通过与原始图像对比的感知损失反向优化视觉编码器和连接器,从而增强视觉语言模型的感知能力与语义表达能力。
本发明授权使用扩散模型监督视觉语言模型训练的方法在权利要求书中公布了:1.一种使用扩散模型监督视觉语言模型训练的方法,其特征在于包括以下步骤: 步骤S1.提取多层次监督特征 输入图像与文本;从视觉编码器中提取多个层级的中间特征,分别表示为低层特征、中层特征和高层特征,且从连接器的输出特征中提取代表语言语义的监督特征;其中,低层特征指的是第8层的特征,中层特征指的是第16层的特征,高层特征指的是第24层的特征; 步骤S2.多适配器映射处理 通过多个适配器,分别对提取的四组特征进行映射与归一化,将原始特征变换为统一的条件向量维度,并进入扩散模型的混合专家交叉注意力机制中; 步骤S3.混合专家交叉注意力注入机制 为每组变换后的特征分别建立一个独立的交叉注意分支;扩散模型中的每一个交叉注意力层同时接收来自低、中、高三个不同层级图像特征的独立处理结果以及来自文本模态的特征响应;通过学习一个轻量级的线性变换矩阵,将当前扩散阶段的查询向量映射为融合权重向量,并最终输出融合后的特征; 步骤S4.图像重建与监督优化 将步骤S3中融合后的特征输入到扩散模型的U-Net主干网络中,在每个时间步逐步还原图像,得到最终输出图像;将最终输出图像与原始图像比较,并用感知损失构建重建损失,重建损失通过梯度反向传播直接作用于视觉编码器与连接器,从而提升其感知能力与语义对齐效果,达到优化视觉语言模型的目标。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人厦门大学,其通讯地址为:361000 福建省厦门市思明南路422号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励