电子科技大学何涛获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉电子科技大学申请的专利一种基于知识引导扩散模型的无监督跨域视觉情绪识别方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120412060B 。
龙图腾网通过国家知识产权局官网在2025-11-11发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510926272.2,技术领域涉及:G06V40/16;该发明授权一种基于知识引导扩散模型的无监督跨域视觉情绪识别方法是由何涛;殷文;朱宏伟;段贵多;戴瑞婷设计研发完成,并于2025-07-07向国家知识产权局提交的专利申请。
本一种基于知识引导扩散模型的无监督跨域视觉情绪识别方法在说明书摘要公布了:本发明提出一种基于知识引导扩散模型的无监督跨域视觉情绪识别方法,属于计算机视觉与自然语言处理技术领域。本发明在知识引导的扩散模型及混合专家预测模型训练阶段,通过情绪类别标签训练多模态混合专家模型的同时,情绪类别标签对构造的不同反事实样本进行反事实对比学习,以调优跨域的视觉情绪对齐的一致性并为目标域的样本生成伪标签。在预测阶段,知识引导的扩散模型及混合专家预测模型能对所属不同领域的图片进行情绪类别的识别输出。解决了现有技术中模型无法同时分析不同类型图片情感的问题,进一步的,解决了不同类型图片之间情绪表达差异和情感分布偏移的问题。
本发明授权一种基于知识引导扩散模型的无监督跨域视觉情绪识别方法在权利要求书中公布了:1.一种基于知识引导扩散模型的无监督跨域视觉情绪识别方法,其特征在于,所述方法包括如下步骤: 训练过程: 步骤S1:获取跨域图片并进行预处理,得到图片文字描述和对应抽取到的图片知识; 步骤S2:搭建编码器,将跨域图片、图片文字描述和图片知识输入编码器中得到的图片特征、文字特征及图片知识特征; 步骤S3:整合文字特征以及图片知识特征通过多层架构模型预测情绪,最后利用情绪类别标签计算的分类交叉熵损失微调知识引导扩散模型和混合专家预测模型,优化情绪分类的预测; 步骤S31:将文字特征和图片知识特征拼接得到知识混合特征,将知识混合特征输入知识引导扩散模型中的跨注意力机制得到跨模态隐藏表示,如下所示: vc=vt⊕vk Φk=KGCAvc 其中,vc表示知识混合特征,vt表示文字特征,vk表示图片知识特征,⊕表示拼接操作,Φk表示跨模态隐藏表示,KGCA表示知识引导扩散模型的跨注意力机制; 步骤S32:将跨模态隐藏表示和图片特征输入到去噪扩散模型,得到扩散模型隐藏表示,如下所示: hi=Diffusion[vi,Φk] 其中,hi表示扩散模型隐藏表示,Diffusion表示去噪扩散模型;vi表示图片特征; 步骤S33:将扩散模型隐藏表示和知识混合特征表示输入到一个混合专家预测模型,通过预测得到情绪分类结果,如下所示: y=MoE[hi,vc] 其中,y表示混合专家预测模型预测的情绪类别,MoE表示混合专家预测模型; 步骤S34:通过情绪标签和预测的情绪类别计算分类交叉熵损失: 其中,表示分类交叉熵损失;K表示情绪类别数量;yi是真实情绪类别;是模型预测样本属于第i类情绪的概率; 步骤S35:使用分类交叉熵损失微调知识对齐扩散模型和混合专家预测模型; 步骤S4:在训练源域图片时,使用反事实对比学习对齐增强文本情绪嵌入和视觉融合嵌入,并以此产生的损失,微调知识对齐扩散模型和混合专家预测模型; 步骤S41:将源域图片的知识混合特征分别和情绪提示进行拼接融合,经文本编码器之后输入多头注意力机制中得到增强文本情绪嵌入,表示如下: pi="A"+emotioni+"photoof" 其中,si表示第i种增强文本情绪嵌入,i=1,2...,K,K表示情绪类别数量;MHA表示多头注意力机制,CLIP表示文本编码器,pi表示第i种情绪提示,emotioni源域图片的第i种情绪类别标签对应的情绪; 步骤S42:将图片知识特征对齐在和增强文本情绪嵌入同一个的情绪空间得到视觉融合嵌入,表示如下: v=MLPvk 其中,v表示视觉融合嵌入,MLP表示多层感知机; S43:使用余弦相似度计算视觉融合嵌入和增强文本情绪嵌入的相似度,并计算反事实对比学习损失: 其中,表示反事实对比学习损失,N表示训练图片数量,τ表示温度调整系数,表示相似度计算函数,v表示视觉融合嵌入,sj表示第j种增强文本情绪嵌入; S44:使用反事实对比学习损失微调知识对齐扩散模型和混合专家预测模型; 步骤S5:在训练目标域图片时,使用视觉融合嵌入和增强文本情绪嵌入得到的伪标签作为目标域图片的分类基准,计算分类损失进而微调知识对齐扩散模型和混合专家预测模型,得到训练好的知识引导的扩散模型及混合专家预测模型; 步骤S51:在训练目标域图片时,通过使用视觉融合嵌入和增强文本情绪嵌入选择与相似度最高的值来生成目标域的伪标签,表示如下: 其中,表示目标域图片的伪标签,表示取得到最大值的选择函数; 步骤S52:使用伪标签计算分类损失: 其中,是伪标签的情绪类别; 步骤S53:使用分类损失调整知识对齐扩散模型和混合专家预测模型,得到训练好的知识引导的扩散模型及混合专家预测模型; 预测过程: 步骤S1:获取待识别图片,并进行待识别图片进行预处理,得到图片文字描述和对应抽取到的图片知识; 步骤S2:将待识别图片、图片文字描述和图片知识输入编码器中得到的图片特征、文字特征及知识图片特征; 步骤S3:将图片特征、文字特征及图片知识特征输入训练好的知识引导的扩散模型得到扩散模型隐藏表示; 步骤S4:将扩散模型隐藏表示及文字特征、图片知识特征输入训练好的混合专家预测模型预测得到情绪类别标签; 步骤S5:根据预测的情绪类别标签反查情绪类型表得到情绪识别结果。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人电子科技大学,其通讯地址为:611731 四川省成都市高新区(西区)西源大道2006号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励