南京邮电大学孙林慧获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉南京邮电大学申请的专利一种基于三模态Mamba交互和级联分层融合的多模态情感识别方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119128577B 。
龙图腾网通过国家知识产权局官网在2025-11-14发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411050319.5,技术领域涉及:G06F18/24;该发明授权一种基于三模态Mamba交互和级联分层融合的多模态情感识别方法是由孙林慧;汤熠;陈帅潼;李平安;叶蕾设计研发完成,并于2024-08-01向国家知识产权局提交的专利申请。
本一种基于三模态Mamba交互和级联分层融合的多模态情感识别方法在说明书摘要公布了:本发明公开了一种基于三模态Mamba交互和级联分层融合的多模态情感识别方法,步骤包括:首先,对语音、文本和视频进行编码提取深度特征,通过本发明提出的基于三模态Mamba交互模块捕获不同模态信息长距离的依赖关系,并利用不同模态信息间互补性得到多模态特征的增强表示;然后利用提出的级联分层融合机制来动态整合不同阶段的语义特征,获得语义丰富的多模态情感表示;最后,进行了消融实验,验证了该方法的有效性。本发明实现了对多模态情感识别的有效并行计算,提高了多模态情感识别系统的识别性能和泛化能力。
本发明授权一种基于三模态Mamba交互和级联分层融合的多模态情感识别方法在权利要求书中公布了:1.一种基于三模态Mamba交互和级联分层融合的多模态情感识别方法,其特征在于,所述该方法包括如下步骤: 步骤1:对原始输入的语音、文本和视频模态分别进行浅层特征提取; 步骤2:将所提取的各浅层特征输入到深度编码网络提取深层特征; 步骤3:将深度编码后的语音特征、文本特征和视频特征输入到三模态Mamba交互模块,通过不同模态信息之间的交互融合,获取到经过第一阶段互补增强后的主模态增强特征; 步骤4:将第一阶段增强后的主模态增强特征输入到三模态Mamba交互模块,通过不同模态信息之间的交互融合,获取到经过第二阶段互补增强后的主模态增强特征; 步骤5:将第二阶段增强后的主模态增强特征输入到三模态Mamba交互模块,通过不同模态信息之间的交互融合,获取到经过第三阶段互补增强后的主模态增强特征; 步骤6:将深度编码后的语音特征、文本特征和视频特征以及经过第一、第二、第三阶段增强后的主模态增强特征联合并通过级联分层融合机制得到最终的多模态情感特征,然后将最终的多模态情感特征输入到情感分类器进行情感预测; 步骤7:对所提出的一种基于三模态Mamba交互和级联分层融合的多模态情感识别方法进行性能评估; 所述步骤3具体包括: 步骤3-1-1:接收来自主模态和两个辅助模态深度编码后的特征,对每种模态深度编码后的特征进行层归一化处理,以标准化特征数据,分别得到主模态标准化特征和两个辅助模态标准化特征; 步骤3-1-2:将上述步骤3-1-1得到的主模态和辅助模态标准化后的特征通过三个并行的多层感知机和卷积层,得到深度特征Xm: 其中Conv1D代表一维卷积,MLP代表多层感知机,LN代表层归一化,代表输入的三个模态特征,一个主模态特征、两个辅助模态特征,a代表语音模态,v代表视频模态,t代表文本模态; 步骤3-1-3:将上述步骤3-1-2得到的深度特征输入SSM对长距离依赖关系进行建模得到长距离依赖特征Ym: Ym=SSMXm,m∈{a,v,t} 其中SSM代表状态空间模型; 步骤3-1-4:将主模态标准化特征输入两个独立的MLP1、MLP2,将主模态分别映射到两个辅助模态的互补空间,然后通过激活函数生成两个门控向量G1、G2: 其中,当语音为主模态时输入的为当文本为主模态时输入的为当视频为主模态时输入的为此时主模态为语音模态,即为 步骤3-1-5:将上述步骤3-1-4得到的两个门控向量用于调制由步骤3-1-3得到的长距离依赖模态的特征,得到主模态为语音时的视频-音频交互特征Xv→a和文本-音频交互特征Xt→a: Xv→a=MLPG1⊙Ya+G1⊙Yv Xt→a=MLPG2⊙Ya+G2⊙Yt 其中⊙代表元素乘; 步骤3-1-6:将视频-音频交互特征和文本-音频交互特征融合,并通过一个线性层,得到第一阶段互补增强后的语音增强特征aug-A1: aug-A1=LinearXv→a+Xt→a 步骤3-2:以文本为主模态,视频和语音为辅助模态,将深度编码后的语音特征、文本特征和视频特征输入三模态Mamba交互模块,得到第一阶段互补增强后的文本增强特征aug-T1: Xa→t=MLPG1⊙Yt+G1⊙Ya Xv→t=MLPG2⊙Yt+G2⊙Yv aug-Ti=LinearXa→t+Xv→t 其中,xa→t代表主模态为文本时的音频-文本交互特征,Xv→t代表主模态为文本时的视频-文本交互特征; 步骤3-3:以视频为主模态,文本和语音为辅助模态,将深度编码后的语音特征、文本特征和视频特征输入三模态Mamba交互模块,得到第一阶段互补增强后的视频增强特征aug-V1: Xa→v=MLPG1⊙Yv+G1⊙Ya Xt→v=MLPG2⊙Yv+G2⊙Yt aug-Ti=LinearXa→v+Xt→v 其中,Xa→v代表主模态为视频时的音频-视频交互特征,Xt→v代表主模态为视频时的文本-视频交互特征; 所述步骤4具体包括: 步骤4-1:以语音为主模态,文本和视频为辅助模态,将第一阶段互补增强后的语音特征、文本特征和视频特征输入三模态Mamba交互模块,得到第二阶段互补增强后的语音增强特征aug-A2; 步骤4-2:以文本为主模态,视频和语音为辅助模态,将第一阶段互补增强后的语音特征、文本特征和视频特征输入三模态Mamba交互模块,得到第二阶段互补增强后的文本增强特征aug-T2; 步骤4-3:以视频为主模态,文本和语音为辅助模态,将第一阶段互补增强后的语音特征、文本特征和视频特征输入三模态Mamba交互模块,得到第二阶段互补增强后的视频增强特征aug-V2; 所述步骤5具体包括: 步骤5-1:以语音为主模态,文本和视频为辅助模态,将第二阶段互补增强后的语音特征、文本特征和视频特征输入三模态Mamba交互模块,得到第三阶段互补增强后的语音增强特征aug-A3; 步骤5-2:以文本为主模态,视频和语音为辅助模态,将第二阶段互补增强后的语音特征、文本特征和视频特征输入三模态Mamba交互模块,得到第三阶段互补增强后的文本增强特征aug-T3; 步骤5-3:以视频为主模态,文本和语音为辅助模态,将第二阶段互补增强后的语音特征、文本特征和视频特征输入三模态Mamba交互模块,得到第三阶段互补增强后的视频增强特征aug-V3。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人南京邮电大学,其通讯地址为:210023 江苏省南京市栖霞区亚东新城区文苑路9号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励