电子科技大学裴云强获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉电子科技大学申请的专利一种面向被头戴式显示器遮挡面部的多模态多任务情绪识别方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN118779820B 。
龙图腾网通过国家知识产权局官网在2026-05-01发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202410751659.4,技术领域涉及:G06F18/25;该发明授权一种面向被头戴式显示器遮挡面部的多模态多任务情绪识别方法是由裴云强;王国庆;唐启航;唐佳磊;张凯越设计研发完成,并于2024-06-12向国家知识产权局提交的专利申请。
本一种面向被头戴式显示器遮挡面部的多模态多任务情绪识别方法在说明书摘要公布了:本发明公开了一种面向被头戴式显示器遮挡面部的多模态多任务情绪识别方法,首先,通过寻找关键帧并以关键帧寻找感兴趣区域,并在此基础上,进行面部遮挡,得到训练用视频序列,同时,使用感兴趣区域的脑电图信号和周围生理信号作为训练信号,这样得到训练数据;然后,构建多模态多任务情绪识别模型,采用五层3D卷积层构建的半脸编码模块提取视频序列的空间‑时间特征,采用双流Transformer结构和基于交互性的模态融合模块构建生理信号感知模块获得生理特征,以增强应用于生理信号的情绪识别操作,将半脸特征与生理特征连接,得到用于识别的情绪特征Fj发送到两个分类层CLV、CLA,分别预测情绪的效价和唤醒度。本发明增强微表情发生时的情绪识别,半脸和生理信号的融合达到了与全脸图像相当的情绪预测准确率,并具有准确识别复杂情绪状态的能力。
本发明授权一种面向被头戴式显示器遮挡面部的多模态多任务情绪识别方法在权利要求书中公布了:1.一种面向被头戴式显示器遮挡面部的多模态多任务情绪识别方法,其特征在于,包括以下步骤: 1、训练数据处理; 1.1、选取同时具有面部视频和生理信号的样本作为训练数据; 在宏表情数据集以及微表情数据集中,分别选取多条捕捉参与者面部的视频即面部视频以及对应的脑电图信号和周围生理信号; 1.2、面部视频处理; 1.2.1、基于注释的分割; 将选取的面部视频划分为多个秒的视频片段:划分过程中,刺激呈现前的前秒面部视频被提取为初始片段,随后,从秒标记开始即刺激开始时,提取非重叠的秒片段,片段的数量取决于刺激呈现的持续时间,最后的片段包括面部视频最后一个片段,该片段刺激呈现少于秒,丢弃初始片段和最后一个短于秒的片段,这样得到多个秒的视频片段,每个视频片段给予注释即赋予效价和唤醒度的标签,其中,效价是指令人愉快的程度,范围从不愉快到愉快,唤醒度是生理激活程度的指标,范围从平静到兴奋; 1.2.2、寻找关键帧即Apex帧; 对于每个视频片段,每一帧中获取68个面部标记点,在获取的面部标记点的基础上,定义脸上的10个区域,这些代表肌肉运动频繁发生的区域,每个区域的大小为嘴的宽度的一半; 选择强度差异最高即变化强度值最大的帧作为关键帧: 其中: 其中,表示当前帧即第帧的变化强度值,函数为测量两帧之间10个区域像素值的绝对像素差异即对应位置像素值之差的绝对值之和并进行归一化,为视频片段的第帧,为视频片段的起始帧,为视频片段的结束帧,为第i帧的前帧,表示两帧之间10个区域对应位置像素值之差的绝对值之和,*表示,或,表示最大的帧序号,即为识别出面部表情强度峰值的关键帧; 1.2.3、寻找感兴趣区域; 选择围绕关键帧的帧作为感兴趣区域,如果关键帧距离视频片段的边缘至少有2帧,则在其两侧各包含2帧,但是如果关键帧距离任何边缘的距离小于2帧,则小于一侧的帧从对面添加帧即如果边缘为视频片段的最后一帧,则从第一帧添加,如果边缘为视频片段的第一帧,则从最后一帧添加,直到总共有帧; 1.2.4、对齐和裁剪; 对于感兴趣区域的视频帧,计算左眼和右眼的中心坐标,和,,并计算连接左眼和右眼中心的线与水平方向的角度: ; 然后,以两眼的中心坐标为基点,逆时针旋转视频帧; 视频帧旋转后,其中的像素点坐标也需要相应地旋转: ; 其中,是旋转后的像素点坐标,是旋转前的像素点坐标,是两眼的中心坐标; 在对齐面部后,根据面部标记点将面部裁剪到固定大小:垂直方向将面部划分为三个部分:中间部分,即从两只眼睛的标记点的中心到嘴的标记点的中心的像素距离,占裁剪后的面部的垂直方向的35%,底部占35%,顶部占30%,水平方向以最左和最右标记点的中点为中心进行剪裁,剪裁后的水平方向大小与垂直方向大小相同; 由于图像被裁剪,像素点坐标需要再次进行转换: ; 其中,是裁剪后的坐标,是裁剪前的坐标,是裁剪矩形的左上角坐标,在转换像素点坐标后,得到对齐的感兴趣区域的视频帧; 1.2.5、人工遮挡; 对于对齐的感兴趣区域的视频帧,根据在关键帧中检测到的68个标记点进行面部遮挡:我们根据头戴式显示器初始化遮挡贴片尺寸,使其宽高比为2:1,使用面部标记点的两个颞骨之间的距离作为参考长度,然后,将左右眼睛中心点之间的中点设置为头戴式显示器的中心坐标,生成遮挡贴片; 根据左右眼睛中心点的坐标变化与坐标变化的反正切函数,得到倾斜角度,将遮挡贴片在坐标平面上的中心作为枢轴点,相应地旋转遮挡贴片的角点,得到面部遮挡的视频帧; 对每个视频片段,都按照步骤1.2.2~1.2.5的方法进行处理,得到多个面部遮挡的、长度为帧的视频序列; 1.3、生理信号处理; 首先,对面部视频对应的脑电图信号和周围生理信号进行降采样,然后,对脑电图信号用4.0-45.0Hz的带通滤波器进行滤波,对来自宏表情数据集中的面部视频对应的周围生理信号用60Hz截止频率的低通滤波器进行滤波,来自微表情数据集中的面部视频对应的周围生理信号不进行滤波; 将降采样和滤波后的脑电图信号和周围生理信号在各个视频片段感兴趣区域的部分取出,作为各自视频序列即视频片段感兴趣区域的脑电图信号和周围生理信号; 2、构建多模态多任务情绪识别模型; 2.1、采用五层3D卷积层构建半脸编码模块,用于对面部遮挡的、长度为k帧的视频序列提取空间-时间特征,得到半脸特征,其中,为视频片段的序号; 2.2、采用双流Transformer结构和基于交互性的模态融合模块构建生理信号感知模块,其中,双流Transformer结构包括两个卷积块和两个,Transformer编码器,两个卷积块分别用于对输入的视频片段感兴趣区域的脑电图信号和周围生理信号进行滤波,滤波后的脑电图信号和周围生理信号分别送到一个Transformer编码器,得到视频片段脑电图信号特征以及视频片段周围生理信号特征; 基于交互性的模态融合模块包括两个连接器Ca1、Ca2和交互性提取器IE1、IE2,连接器Ca1将两个将视频片段脑电图信号特征与视频片段周围生理信号特征连接,得到特征,然后将特征送到一交互性提取器IE1中,得到特征,连接器Ca2将两个将视频片段脑电图信号特征与视频片段周围生理信号特征连接,得到特征,然后将特征送到一交互性提取器IE2中,得到特征,然后,将特征与特征进行元素逐个求和,得到融合特征: ; 其中,表示元素逐个求和; 最后,将前后两个融合特征进行连接起来,得到生理特征: ; 其中,Ca表示连接操作; 2.3、将半脸特征和生理特征连接起来,得到情绪特征: ; 然后将情绪特征发送到两个分类器CLV、CLA,分别预测情绪的效价和唤醒度; 3、训练多模态多任务情绪识别模型; 使用交叉熵损失函数来衡量多模态多任务情绪识别模型的预测和真实标签之间的差异,具体来说,将步骤1得到的训练数据送入步骤2构建的多模态多任务情绪识别模型,并构建效价和唤醒度的损失函数和: ; 其中,是训练数据视频片段数量,和分别是第个视频片段的效价和唤醒度的真实标签值,和分别是第个视频片段预测效价和唤醒度的真实标签值的预测概率; 以最小化总损失对多模态多任务情绪识别模型进行训练,直到总损失小于设定的阈值; 4、情绪识别; 采集用户的面部视频以及对应的脑电图信号和周围生理信号,并按照n秒为一个片段进行分割,然后按照步骤1.2.2~1.2.4对视频片段进行处理,得到视频序列,对面部视频对应的脑电图信号和周围生理信号进行降采样,然后,对脑电图信号用4.0-45.0Hz的带通滤波器进行滤波,对周围生理信号用60Hz截止频率的低通滤波器进行滤波,将降采样和滤波后的脑电图信号和周围生理信号在各个视频片段感兴趣区域的部分取出,作为各自视频序列即视频片段感兴趣区域的脑电图信号和周围生理信号; 将视频序列以及对应的视频片段感兴趣区域的脑电图信号和周围生理信号送入步骤3训练好的多模态多任务情绪识别模型,得到各个效价和唤醒度的预测概率,预测概率最大的对应的效价和唤醒度为预测效价和唤醒度。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人电子科技大学,其通讯地址为:611731 四川省成都市高新区(西区)西源大道2006号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励