中国矿业大学郭丽丽获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉中国矿业大学申请的专利基于上下文感知和跨模态共享注意力的对话情感识别方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119397359B 。
龙图腾网通过国家知识产权局官网在2025-12-19发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411524626.2,技术领域涉及:G06F18/241;该发明授权基于上下文感知和跨模态共享注意力的对话情感识别方法是由郭丽丽;李杰;崔雅楠;李超;丁世飞设计研发完成,并于2024-10-29向国家知识产权局提交的专利申请。
本基于上下文感知和跨模态共享注意力的对话情感识别方法在说明书摘要公布了:一种基于上下文感知和跨模态共享注意力的对话情感识别方法,采集不同对话场景下的蕴含上下文的文本以及音频信息形成数据集,完成数据集的构建;对构建的数据集进行预处理,以提取相应的模态特征;分别搭建一个音频上下文感知网络、一个跨模态共享注意力网络及一个自适应融合网络,再将所搭建的网络依次连接形成初始情感识别模型;对初始情感识别模型进行端到端的训练,对训练好的情感分类模型进行保存,形成情感识别模型;采用特征编码器对所采集到的文本及音频数据进行特征提取,得到文本及音频特征;将文本及音频特征输入至情感识别模型中,利用情感识别模型识别并输出预定义的情况类别。该方法能有效解决空间异质性问题,具备优异的识别效果。
本发明授权基于上下文感知和跨模态共享注意力的对话情感识别方法在权利要求书中公布了:1.一种基于上下文感知和跨模态共享注意力的对话情感识别方法,其特征在于,包括以下步骤: 步骤一:数据获取;采集不同对话场景下的蕴含上下文的文本以及音频信息形成数据集,完成数据集的构建; 步骤二:数据预处理;对构建的数据集进行预处理,以提取相应的模态特征;对于文本信息,提取出每个对话中的上下文特征;对于音频信息,提取出每个语句的音频特征;采用RoBERTa预训练模型进行文本特征的提取,采用采样率为16000的Librosa采样模块以及Wav2vec2预训练模型进行音频特征的提取; 步骤三:模型构建;分别搭建一个音频上下文感知网络、一个跨模态共享注意力网络及一个自适应融合网络,再将所搭建的三个网络依次连接形成初始情感分类模型;所述音频上下文感知网络由1个位置嵌入层以及5个编码层依次连接构成,其中编码层由2个残差结构依次连接,第一个残差结构由1个多头注意力网络层与1个层归一化网络层构成,第二个残差结构由1个前馈神经网络层与1个层归一化网络层构成,以实现音频中情感信息的聚合;在音频特征输入至音频上下文感知网络中所包含的多头注意力机制网络层中时,将当前音频特征分别用三个全连接映射作为查询向量Q、键向量K、值向量V传入多头注意力机制网络层中的缩放点积网络层,使得音频特征能感知上下文中的情感信息并且进行汇聚,接着经过层归一化网络,使得音频特征规范到标准范围内以方便和原始特征做对比,随后使用残差连接汇聚上下文情感的音频特征和原始的音频特征,使得模型更加有效的学习两者特征之间的差异之处,结合更为丰富的情感信息;通过前馈神经网络层连接残差结构的输出端,先使用一个全连接层将768维度的音频特征映射为3072维度的特征空间,再将3072维度的音频特征映射到768维的音频空间,使得模型在不同的特征空间之下学习潜在的情感特征,最后统一映射到768维的特征空间之下,接着经过层归一化网络层以方便和进入前馈神经网络层之前的特征进行残差连接专注学习特征差异;所述跨模态共享注意力网络由2个位置嵌入层以及5个编码层与5个解码层构成,其中每个编码器层由2个残差结构依次连接,第一个残差结构由1个多头注意力网络层构成,第二个残差结构由1个前馈神经网络层与1个层归一化网络层构成,以实现模态1信号的情感汇聚;每个解码层由3个残差结构依次连接,第一个残差结构由1个多头注意力网络层和1个层归一化网络层构成,第二个残差结构由1个跨模态多头注意力网络层和1个层归一化网络层构成,以实现模态2感知模态1的情感信息,第三个残差结构由1个前馈神经网络层与1个层归一化网络层构成,以实现在模态2汇聚情感信息的基础上感知模态1的情感信息;解码器中的第二个残差结构将当前模态1的特征分别用两个全连接网络层映射作为键向量K、值向量V,将当前模态2的特征使用一个全连接网络层映射作为查询向量Q,使得模态2感知模态1中的情感特征,并且将两个模态使用同一套参数进行学习,使得模态1和模态2的特征在同一特征空间之下相同的情感特征进行靠近,相异的情感特征保持独立,使得模型再汇聚不同模态特征的同时保留其独立性,通过编码器和解码器的堆叠,使得模型融合不同层次的特征;所述自适应融合网络包括1个加性注意力层和1个前馈神经网络层,先通过加性注意力机制将时间尺度的特征进行融合,接着使用一个全连接网络层对数据的情感进行识别,用于对时间尺度的特征进行融合; 步骤四:模型训练;S41:设置训练最大轮数和训练所需的其他超参数;S42:对步骤一中的数据集进行调整,并按设定比例将调整后的数据集划分为训练集、验证集和测试集;S43:开始对初始情感分类模型进行端到端的训练;在训练的每一轮执行如下操作:判断当前轮次下是否需要调整学习率,将训练集中的文本与音频特征数据作为输入数据输入至初始情感分类模型,通过初始情感分类模型预测生成并输出预定义的情感类别,同时,计算初始情感分类模型预测生成的情感类别和原始类别的误差,计算损失函数并反向传播更新各层的参数,使用当前初始情感分类模型在验证集上进行预测,记录当前损失,并与最小损失做对比,当最小损失更新时,先对训练过程中的初始情感分类模型进行保存,再进行下一轮的训练,若最小损失没有更新时,不对训练过程中的初始情感分类模型进行保存,直接进行下一轮的训练;同时,计算当前轮次和上一轮次损失函数的差值,并将差值和收敛阈值进行比较以判定是否收敛,当收敛时,先对训练过程中的初始情感分类模型进行保存,再进行下一轮的训练,当未收敛时,不对训练过程中的初始情感分类模型进行保存,直接进行下一轮的训练;S44:当损失函数收敛并达到最大训练轮次后,初始情感分类模型训练完毕,得到训练好的情感分类模型; 步骤五:模型保存;对训练好的情感分类模型进行保存,形成情感识别模型; 步骤六:情感识别;S61:采用特征编码器对所采集到的文本及音频数据进行特征提取,得到文本及音频特征;S62:将文本及音频特征输入至情感识别模型中,利用情感识别模型识别并输出预定义的情况类别。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中国矿业大学,其通讯地址为:221000 江苏省徐州市大学路1号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励