华中师范大学李书慜获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉华中师范大学申请的专利基于多模态注意力交互学习的唇语识别模型、方法及装置获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN117173783B 。
龙图腾网通过国家知识产权局官网在2025-08-22发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202311079636.5,技术领域涉及:G06V40/20;该发明授权基于多模态注意力交互学习的唇语识别模型、方法及装置是由李书慜;汪凌云;唐余;钮门;谢伟;孙昊设计研发完成,并于2023-08-25向国家知识产权局提交的专利申请。
本基于多模态注意力交互学习的唇语识别模型、方法及装置在说明书摘要公布了:本发明提供基于多模态注意力交互学习的唇语识别模型、方法及装置,能够最小化损坏流对预测的影响,减少计算复杂度,提高确性和处理效率。模型包括:音频前端处理模块;视频前端处理模块;音频损坏建模模块,输出为损坏建模后的音频特征和音频可靠性信息;视频损坏建模模块,输出为损坏建模后的视频特征和视频可靠性信息;多模态压缩扩展模块,将音频损坏建模模块和视频损坏建模模块的输出结果作为输入,然后基于多头注意力机制计算得到与各模态特征系列瓶颈向量的输入特征,接着基于特征压缩公式进行特征压缩,得到相应模态瓶颈向量的输出特征;再对瓶颈向量的输出特征,按照特征扩展公式进行特征扩展整合,得到整合后的增强特征;预测识别模块。
本发明授权基于多模态注意力交互学习的唇语识别模型、方法及装置在权利要求书中公布了:1.基于多模态注意力交互学习的唇语识别模型,其特征在于,包括: 音频前端处理模块,对原始输入音频进行预处理并提取音频特征,输出提取的音频特征以及预处理后的音频; 视频前端处理模块,对原始输入视频进行预处理并提取视频特征,输出提取的视频特征以及预处理后的视频; 音频损坏建模模块,基于音频前端处理模块输出的音频特征以及预处理后的音频,将模糊和加性噪声插入预处理后的音频中,并按照一定概率进行噪声污染,模拟可能出现的音频噪声,用于模型学习训练,得到音频损坏模型,模型输出为损坏建模后的音频特征和音频可靠性信息;该音频可靠性信息能够指示每个音频帧的损坏程度; 视频损坏建模模块,基于视频前端处理模块输出的视频特征以及预处理后的视频,将遮挡补丁和噪声插入预处理后的视频中,遮挡补丁以口唇为中心,模拟口型不清晰和口唇被遮挡的情况,用于模型学习训练,得到视频损坏模型,模型输出为损坏建模后的视频特征和视频可靠性信息;该视频可靠性信息指示每个视频帧的损坏程度; 多模态压缩扩展模块,将音频损坏建模模块和视频损坏建模模块的输出结果作为输入数据,使用视觉特征作为查询,使用音频特征作为键和值,采用编码器得到每一帧音频特征和每一帧视频特征的权重;然后基于多头注意力机制,将各音频特征及权重输入到音频单模态编码器中进行特征压缩自注意力计算得到与各音频特征对应的系列音频瓶颈向量的输入特征,并将各视频特征及其权重输入到视频单模态编码器中进行特征压缩得到与各视频特征对应的系列视频瓶颈向量的输入特征;接着,基于特征压缩公式,分别对音频和视频两种模态的瓶颈向量的输入特征进行特征压缩,得到相应模态瓶颈向量的输出特征;再对瓶颈向量的输出特征,采用跨模态编码器,按照特征扩展公式进行特征扩展整合,得到整合后的增强特征; 特征压缩公式为: 特征扩展公式为: 式中,zi’表示瓶颈向量i的输出特征,zi表示瓶颈向量i的输入特征,xi’表示经过特征扩展整合后的第i个增强特征向量,xi表示相应模态损坏建模模块输出的第i个特征,wz表示用于特征压缩和扩展的权重,Nv表示特征向量的数量;wq表示查询权重;wk表示键权重; 预测识别模块,将多模态压缩扩展模块输出的结果xi’作为输入数据,使用解码器和屏蔽语言建模MLM进行词汇预测,从而将xi’转换为文本输出。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人华中师范大学,其通讯地址为:430079 湖北省武汉市洪山区珞瑜路152号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。