南京邮电大学刘天亮获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉南京邮电大学申请的专利一种基于对比学习和Transformer结构的多模态情感识别方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN118114105B 。
龙图腾网通过国家知识产权局官网在2025-09-16发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202311718252.3,技术领域涉及:G06F18/241;该发明授权一种基于对比学习和Transformer结构的多模态情感识别方法及系统是由刘天亮;徐钦超;戴修斌设计研发完成,并于2023-12-14向国家知识产权局提交的专利申请。
本一种基于对比学习和Transformer结构的多模态情感识别方法及系统在说明书摘要公布了:本发明公开了一种基于对比学习和Transformer结构的多模态情感识别方法及系统,该方法包括对数据集的数据样本进行预处理和划分,划分成训练集、测试集和验证集;利用图像特征提取模型和文本特征提取模型分别对图像数据和文本数据进行特征提取;计算图文对比损失,完成图像特征和文本特征的对齐;利用多层transformer‑encoder进行模态特征融合,通过softmax函数得到情感分类的结果;利用数据增强方法及随机dropout方法对数据样本进行正负样本构建,与原数据集特征进行对比学习,优化整个模型参数。本发明使用轻量化模型提取特征,并辅以模态对齐及对比学习任务,在不影响模型精度的同时,降低计算复杂度,提升运行速度。
本发明授权一种基于对比学习和Transformer结构的多模态情感识别方法及系统在权利要求书中公布了:1.一种基于对比学习和Transformer结构的多模态情感识别方法,其特征在于,包括以下步骤: S1、选择以文本和图像为样本数据的多模态数据集,对其进行预处理和划分,得到文本数据和图像数据; S2、对图像数据进行切块处理,输入到图像特征提取模型中提取图像块的视觉特征表示,获得图像特征序列; S3、将文本数据划分成词向量,使用词向量映射将其转化为向量形式,输入到文本特征提取模型中提取文本特征表示,获得文本特征序列; S4、对提取的图像特征序列和文本特征序列计算图文对比损失函数,完成特征序列的对齐; S5、将对齐后的图像特征序列和文本特征序列进行拼接,得到图像-文本特征表示,将其送入多层Transformer编码器结构进行特征层融合,得到初始图像-文本融合向量表示; S6、将初始图像-文本融合向量表示进行随机dropout处理,得到向量表示,将其输入全连接层,通过softmax函数得到预测情感识别的结果,通过该结果与样本实际情感类别标签进行交叉熵损失函数计算;具体为: 对初始图像-文本融合向量表示进行随机dropout处理,得到情感特征样本,将情感特征样本输入全连接层得到非线性变换,并通过softmax计算得到用于情感分类的概率输出,将该概率输出进行求和处理,得到一个概率输出; 选择概率输出中最大的概率类别作为该样本的预测情感,进而计算多类交叉熵损失函数,具体公式为: g=GELUWgF+bg; 其中,g表示情感类别特征向量,表示预测的情感类别概率分布,N表示总样本数,c表示情感类别的总数,表示对第m个样本属于第n个情感类别的预测概率,ymn表示第m个样本通过分类标签转化得到的第n个情感类别,Wg表示激活函数的权重,bg表示激活函数的偏置,Wo表示输出层的权重,bo表示输出层的偏置,Lc表示交叉熵损失函数,F表示初始图像-文本融合向量表示; 上式中的权重及偏置均通过adam优化器进行参数优化; S7、将步骤S1得到的图像、文本数据进行数据增强,通过步骤S2-S5的操作得到数据增强后的图像-文本融合向量表示,将其与步骤S5得到的初始图像-文本融合向量表示进行对比学习,计算损失函数;具体为: S701、对图像数据进行数据增强,与原数据组成正样本进行对比学习: Ia=data_augmentationI; fia=linearMobileViTIa; 其中,Ia表示数据增强后的图像特征序列集合,fia表示特征统一后的图像特征; S702、对选择的的文本数据进行dropout处理,得到同一句子的不同的embedding结果,来自同一个文本数据的向量互为正样本,其余文本数据的特征向量作为负样本,进行对比学习,具体公式为: fta=linearMobileBERTT; 其中,fta表示特征统一后的文本特征; S703、对数据增强过的数据进行特征对齐,再进行特征融合,得到数据增强后的图像-文本融合向量表示,进行对比学习,将相似度计算的结果转化为角度,计算原数据的融合特征与增强后的融合特征之间的对比学习损失,具体公式为: LITC-a=L'i2t+L't2i2; Fa=transformerf'I-T; 其中,LITC-a表示数据增强后的图文特征对齐损失函数;L′i2t表示数据增强后的从图像到文本的损失计算;L′t2i表示数据增强后的从文本到图像的损失计算;f'I-T表示数据增强后的图像-文本拼接特征;Lo-a表示未经过数据增强的融合情感特征与数据增强后的融合特征之间的归一化交叉损失;表示将余弦相似度计算的结果转化为角度值;表示计算F和Fa之间分类结果的不同,yF表示未经过数据增强的情感识别结果,表示数据增强后的情感识别结果;表示正样本的角度值结果;H表示同一批样本的样本集合;M表示设置的角度偏置,Fa表示数据增强后的图像-文本融合向量表示; S8、将步骤S4、S6、S7中的损失函数相加,优化网络参数; S9、输入测试样本,执行步骤S2-S8,提取样本对应的特征表示,通过全连接层及softmax函数得到最后的情感识别结果,完成情感识别任务。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人南京邮电大学,其通讯地址为:210003 江苏省南京市鼓楼区新模范马路66号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励