西南交通大学杨燕获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉西南交通大学申请的专利一种跨模态视频情感信息解析方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115546685B 。
龙图腾网通过国家知识产权局官网在2025-09-16发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211162039.4,技术领域涉及:G06V20/40;该发明授权一种跨模态视频情感信息解析方法是由杨燕;谢朱洋;王杰;刘小溶设计研发完成,并于2022-09-23向国家知识产权局提交的专利申请。
本一种跨模态视频情感信息解析方法在说明书摘要公布了:本发明公开了一种跨模态视频情感信息解析方法,属于多媒体视频理解技术领域。其步骤包括:1单模态特征提取模块,即通过时序建模的方式捕获每个模态特有的语义信息;2不确定性估计模块,即对不同模态进行不确定建模,得到各模态的不确定分布表示;3不确定融合模块,即根据不确定概率融合的方式整合多模态信息,降低跨模态融合的不确定性;4情感分类模块,通过全连接网络层,输出最终的情感分类结果。
本发明授权一种跨模态视频情感信息解析方法在权利要求书中公布了:1.一种跨模态视频情感信息解析方法,包括以下步骤: 步骤一、对原始视频数据进行处理,提取用于模型输入的特征序列: 1使用OpenFace工具包对视频图像进行处理,提取面部特征序列xv,每个视频图像的特征维度为20; 2对视频中的文本数据采用预训练的BERT模型得到文本序列xt,每个单词的特征维度为768; 3采用COVAREP工具包对视频中的音频信号提取特征序列xa,每个音频信息的特征维度为5; 4将提取的上述三种特征序列构建数据集X:其中,m=v,t,a表示模态m具有v,t,a三种取值,v,t,a分别表示视频、文本、音频三种模态,Tm和Dm分别表示来自模态m的序列长度以及特征维度; 5将构建好的数据集X按照8∶1∶1进行划分,得到训练集,测试集和验证集; 步骤二、构建跨模态情感预测网络模型: 1构建单模态特征提取模块:将构建好的数据集X作为输入,通过双向长短期记忆网络biLSTM分别为所述的三种模态特征进行建模,学习每个模态内部的时序变化,将最终的状态输出用作特征表示,公式如下: hm=biLSTMxm,θm 其中,xm是输入的模态m的序列特征,θm是对应的神经网络参数,hm是模态特征; 2构建不确定性估计模块: 将以上三种模态特征hm作为输入,为了实现特征对齐,采用多层感知器MLP进行特征变换,将不同维度的模态特征映射到统一的特征空间: fm=MLPhm,wm 其中,wm是多层感知器的网络参数,fm是映射后的特征向量,多层感知器的隐藏层神经单元数量为128; 将所述模态序列特征的数据看作从不同的高斯分布中采样得到,即其中,表示服从均值为um,方差为σm 2的高斯分布;每个模态有着各自的分布,um表示均值,视为样本模态本身,而σm 2表示方差,视为模态噪声,为了进行不确定性分布建模,采用两个全连接层FC1和全连接层FC2分别估计模态m的均值um和方差σm: um=FC1fm,w1 σm 2=FC2fm,w2 其中,w1和w2分别是全连接层FC1和FC2的可学习参数; 尽管全连接层能够估计方差σm 2,但在网络模型训练过程中,由于过小的方差σm 2会导致模型退化为确定性表示;为了解决这个问题,加入了一个正则化项,通过KL散度来约束参数分布近似正态分布: 其中,是由KL散度计算得到的损失,um,i表示均值um的第i个维度,D表示向量维度,设置为128; 为了使估计方差σm 2的分布有效地捕获各自模态的信息,通过数据重构的方式进行约束,从而最小化输入与输出之间的误差;由于采样过程不可导,引入了参数化重采样进行反向传播,具体过程如下: zm=um+∈·σm 2,∈∈0,I 其中,zm表示重采样后的特征,∈表示正态分布的采样噪声,0和I分别全0和全1的向量,重构损失采用绝对平均误差进行计算; 3构建不确定融合模块: 根据不确定性估计得到的分布均值um和方差σm 2,执行不确定融合,首先计算图像均值uv和图像方差σv 2以及文本均值ut和文本方差σt 2两个模态分布的融合,然后将融合的结果再与音频均值ua和音频方差σa 2分布融合;具体过程如下: 其中,uvt和σvt 2是图像和文本模态融合之后的分布,uvta以及σvta 2是三种模态融合得到的最终分布; 4构建情感预测模块: 在训练阶段,将得到的跨模态融合结果输入到全连接层FCreg进行情感分类,输出回归的情感分数,采用平均绝对误差作为损失函数;具体过程如下: Om=FCreguvta,wclass 其中,wclass是全连接层的网络参数,Om是预测的情感分数,gm是样本的真实情感分数,是计算得到的误差损失; 步骤三、在训练集上训练优化网络模型: 整体需要优化的损失函数为: 步骤四、在验证集和测试集上验证和测试网络模型: 在验证和测试阶段,对预测的情感分数进行切分,将分数限定在[-3,3],按照四舍五入对情感分数取整,得到的类别:非常消极、消极、轻微消极、中性、轻微积极、积极、非常积极,具体如下: Oclass=roundOm 其中,函数round为取整操作,Oclass是取整后的结果,表示网络模型最终预测的类别。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人西南交通大学,其通讯地址为:610031 四川省成都市二环路北一段111号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。