清华大学张云皓获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉清华大学申请的专利一种语音交互识别增强方法、装置和存储介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119207393B 。
龙图腾网通过国家知识产权局官网在2025-10-10发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411168568.4,技术领域涉及:G10L15/20;该发明授权一种语音交互识别增强方法、装置和存储介质是由张云皓;宋亦旭;李志明;孙富春;陶霖密设计研发完成,并于2024-08-23向国家知识产权局提交的专利申请。
本一种语音交互识别增强方法、装置和存储介质在说明书摘要公布了:本发明提出了一种语音交互识别增强方法,包括:采集说话者面向摄像头进行语音交互的视频,将其拆分为N段待识别语音和N帧待识别图像,并构成待识别数据;将待识别数据输入预设的语音交互识别增强模型,该模型包括唇语特征提取网络、语音特征提取网络、时间特征提取网络和激活网络,时间特征提取网络用于对唇语特征提取网络提取的唇语特征矩阵和语音特征提取网络提取的语音特征矩阵添加时序信息,激活网络用于模拟生物脑中视觉信息对听觉神经回路的激活‑抑制机制,实现视觉、听觉两种模态的交互,从而得到语音识别结果。本发明实现视、听觉双模态语音识别在嘈杂环境下准确识别唇语和语音,且响应能力和准确性满足要求。
本发明授权一种语音交互识别增强方法、装置和存储介质在权利要求书中公布了:1.一种语音交互识别增强方法,其特征在于,包括: 采集待识别视频,所述待识别视频中说话者面向摄像头进行语音交互,将所述待识别视频拆分为N段待识别语音和N帧待识别图像,并构成待识别数据; 将所述待识别数据输入预设的语音交互识别增强模型,所述语音交互识别增强模型包括唇语特征提取网络、语音特征提取网络、时间特征提取网络和激活网络,所述唇语特征提取网络用于提取N帧待识别图像的唇语特征矩阵,语音特征提取网络用于提取N段待识别语音的语音特征矩阵,时间特征提取网络用于根据所述唇语特征矩阵和所述语音特征矩阵得到包含时序信息的唇语特征矩阵和包含时序信息的语音特征矩阵,激活网络用于模拟生物脑中视觉信息对听觉神经回路的激活-抑制机制,实现所述包含时序信息的唇语特征矩阵和所述包含时序信息的语音特征矩阵两种模态的交互,从而得到语音识别结果; 所述激活网络包括依次连接的激活模块、融合层,第二全连接层和分类器,所述激活模块由注意力层和第一全连接层组成;所述包含时序信息的唇语特征矩阵的维度为N×28,所述激活模块首先利用注意力机制计算在28个唇语类别上的注意力权重,所述28个唇语类别由26个英文字母对应的唇形、1个空格和1个占位符组成,然后利用所述第一全连接层将所述注意力层得到的注意力权重转换为各类别的概率分布,从而得到激活矩阵;所述融合层用于将所述包含时序信息的语音特征矩阵与所述激活矩阵中对应位置的元素相乘,得到融合特征;所述融合特征经过所述第二全连接层的线性变换和所述分类器的分类后得到所述语音识别结果。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人清华大学,其通讯地址为:100084 北京市海淀区清华园1号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励