Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 河北工业大学师硕获国家专利权

河北工业大学师硕获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉河北工业大学申请的专利基于改进ConvMixer网络和动态焦点损失的视听情感分类方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115346261B

龙图腾网通过国家知识产权局官网在2025-07-18发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211015781.2,技术领域涉及:G06V40/16;该发明授权基于改进ConvMixer网络和动态焦点损失的视听情感分类方法是由师硕;覃嘉俊;郝小可;郭迎春;于洋;朱叶;刘依;吕华设计研发完成,并于2022-08-24向国家知识产权局提交的专利申请。

基于改进ConvMixer网络和动态焦点损失的视听情感分类方法在说明书摘要公布了:本发明为基于改进ConvMixer网络和动态焦点损失的视听情感分类方法,包括1采集表达情感的涉及人体面部区域的视频,从视频中提取图像序列和音频信号,将音频信号转换为梅尔倒谱系数谱图;2构建结合邻接矩阵的ConvMixer网络,利用结合邻接矩阵的ConvMixer网络中提取视觉特征;3利用ResNet34网络从梅尔倒谱系数谱图中提取听觉特征;4构建特征融合与分类网络,用于将视觉特征和听觉特征进行融合,根据融合后的特征对每个视频进行情感分类;5对网络进行训练,通过融合动态权重的焦点损失函数计算训练损失。克服了现有方法着重提取视频画面局部特征而忽略全局特征,损失函数无法使模型关注难分样本等问题。

本发明授权基于改进ConvMixer网络和动态焦点损失的视听情感分类方法在权利要求书中公布了:1.一种基于改进ConvMixer网络和动态焦点损失的视听情感分类方法,其特征在于,包括以下步骤: 第一步,采集表达情感的涉及人体面部区域的视频,从视频中提取图像序列和音频信号,将音频信号转换为梅尔倒谱系数谱图; 第二步,构建结合邻接矩阵的ConvMixer网络,包括三部分操作,依次为分块嵌入操作、Layer模块操作和平均池化操作;将图像序列输入结合邻接矩阵的ConvMixer网络中提取视觉特征,得到特征图F; 第2.1步,分块嵌入操作: 将图像序列,依次经过卷积层、激活函数层和归一化层进行分块嵌入操作,得到分块嵌入操作输出的特征图F2.1; 第2.2步,Layer模块操作,包括四个级联的Layer模块; 将特征图F2.1输入到第一个Layer模块,第一个Layer模块根据特征图F2.1的空间尺寸大小构建特征图F2.1中每个图像块的二维空间坐标矩阵,根据特征图F2.1的时间尺寸大小对二维空间坐标矩阵进行复制、拼接,得到与特征图F2.1尺寸大小相同的空间位置编码;将特征图F2.1与空间位置编码进行拼接,再经过线性层,得到特征图根据特征图F2.1的空间尺寸大小随机生成空间邻接矩阵,将特征图与空间邻接矩阵相乘,再经过激活函数层与归一化层得到特征图Fs;将特征图与Fs进行叠加,得到特征图Fs'; 根据特征图Fs'的时间尺寸大小构建特征图Fs'中每个图像块的一维时间坐标矩阵,根据特征图Fs'的空间尺寸大小对一维时间坐标矩阵进行复制、拼接,得到与特征图Fs'尺寸大小相同的时间位置编码;将特征图Fs'与时间位置编码进行拼接,再经过线性层,得到特征图根据特征图Fs'的时间尺寸大小随机生成时间邻接矩阵,将特征图与时间邻接矩阵相乘,再经过激活函数层与归一化层,得到特征图Ft;将特征图与Ft进行叠加,得到特征图Ft';特征图Ft'依次经过逐点卷积层、激活函数层和归一化层后,得到第一个Layer模块输出的特征图; 第2.3步,平均池化操作: 将第四个Layer模块输出的特征图通过平均池化层进行空间维度平均池化操作,得到特征图F; 第三步,利用ResNet34网络从梅尔倒谱系数谱图中提取听觉特征,得到特征图M; 第四步,构建特征融合与分类网络,用于将视觉特征和听觉特征进行融合,根据融合后的特征对每个视频进行情感分类;特征融合与分类网络包括两个跨模态时间注意力模块、池化与拼接操作和分类操作; 第4.1步,第一个跨模态时间注意力模块: 将特征图F和特征图M输入第一个跨模态时间注意力模块,特征图F经过线性层和归一化层,得到特征Q1;特征图M经过两个独立的线性层和两个独立的归一化层,分别得到特征K1和V1; 根据特征Q1与K1的时间维度大小生成可学习的中间矩阵LIM1,并对中间矩阵LIM1进行随机参数初始化;将特征Q1与初始化后的中间矩阵LIM1和特征K1的转置相乘,再除以特征K1通道数的开平方,再输入softmax层,得到归一化权重;将归一化权重与特征V1相乘后,再与特征Q1相加,得到基于图像序列的跨模态注意力特征Fatt;基于图像序列的跨模态注意力特征Fatt经过逐点卷积层,得到基于图像序列的跨模态特征Fcm; 第4.2步,第二个跨模态时间注意力模块: 将特征图F和特征图M输入第二个跨模态时间注意力模块;特征图M经过线性层和归一化层,得到特征Q2;特征图F经过两个独立的线性层和两个独立的归一化层,得到特征K2和V2; 根据特征Q2与K2的时间维度大小生成可学习的中间矩阵LIM2,并对中间矩阵LIM2进行随机参数初始化;将特征Q2与中间矩阵LIM2和特征K2的转置相乘,再除以特征K2通道数的开平方,再输入softmax层,得到归一化权重;将归一化权重与特征V2相乘,再与特征Q2相加,得到基于梅尔倒谱系数谱图的跨模态注意力特征Matt;将基于梅尔倒谱系数谱图的跨模态注意力特征Matt经过逐点卷积层,得到基于梅尔倒谱系数谱图的跨模态特征Mcm; 第4.3步,池化与拼接操作: 将基于图像序列的跨模态特征Fcm和基于梅尔倒谱系数谱图的跨模态特征Mcm分别进行平均池化,然后进行拼接,得到特征fFM; 第4.4步,分类操作: 将特征fFM输入线性层,再经过softmax层,得到关于E种情感类别的预测概率分布P{Y1,Y2,...,Yi,...,Yq},Yi代表第i个视频关于E种情感类别的预测概率分布,表示为Yi{yi1,…,yie,…,yiE},yie代表第i个视频属于第e个情感类别的预测概率,q表示视频个数; 第五步,对结合邻接矩阵的ConvMixer网络、ResNet34网络、特征融合与分类网络进行训练,通过融合动态权重的焦点损失函数计算训练损失;利用训练后的结合邻接矩阵的ConvMixer网络从图像序列中提取视觉特征,利用训练后的ResNet34网络从梅尔倒谱系数谱图提取听觉特征,再通过训练后的特征融合与分类网络将视觉特征和听觉特征进行特征融合,并根据融合后的特征进行情感分类,预测视频对应的情感类别。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人河北工业大学,其通讯地址为:300130 天津市红桥区丁字沽光荣道8号河北工业大学东院330#;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。