中山大学;广州智慧城市发展研究院胡建国获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉中山大学;广州智慧城市发展研究院申请的专利基于改进Transformer模型的语音识别方法及装置获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115831105B 。
龙图腾网通过国家知识产权局官网在2025-08-12发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211375977.2,技术领域涉及:G10L15/16;该发明授权基于改进Transformer模型的语音识别方法及装置是由胡建国;唐佳浩;卢星宇;丁颜玉;段志奎;秦军瑞设计研发完成,并于2022-11-04向国家知识产权局提交的专利申请。
本基于改进Transformer模型的语音识别方法及装置在说明书摘要公布了:本发明涉及基于改进Transformer模型的语音识别方法,通过改进的Transformer模型进行语音识别,改进的方式为特征融合的方式为利用拼接函数和卷积神经网络融合解码器的高低层特征,并提取局部特征信息,将卷积神经网络提取的局部细节特征与Transformer的全局特征相融合,使得模型提取的特征更具有健壮性。同时为解码器的每一层构建一条短距离的反向传播路径,缓解模型底层的梯度消失问题;以及位置编码增强,将Transformer模型的语音特征嵌入向量和位置编码进行拆解,可以解决因为两者间的弱关联而引起噪声的问题,之后在Transformer模型每个编码器层的自注意力子层中都加入位置编码信息,解决因网络多次叠加而造成位置编码信息减弱的问题。
本发明授权基于改进Transformer模型的语音识别方法及装置在权利要求书中公布了:1.基于改进Transformer模型的语音识别方法,其特征在于,包括以下: 获取待识别的语音数据; 对所述语音数据进行预处理得到预处理后的语音数据; 通过改进的Transformer模型对所述语音数据进行语音识别得到语音识别结果; 输出所述语音识别结果; 改进的Transformer模型与传统的Transformer模型的不同之处在于, 特征融合的方式为利用拼接函数和卷积神经网络融合解码器的高低层特征,并提取局部特征信息,将卷积神经网络提取的局部细节特征与Transformer的全局特征相融合;以及位置编码增强,将Transformer模型的语音特征嵌入向量和位置编码进行拆解,之后在Transformer模型每个编码器层的自注意力子层中都加入位置编码信息; 利用拼接函数和卷积神经网络融合解码器的高低层特征,并提取局部特征信息,将卷积神经网络提取的局部细节特征与Transformer的全局特征相融合,包括: 首先将除最高层外的所有层特征拼接起来以便更好地融合,然后使用卷积神经网络来压缩提取拼接后的特征,以保证融合特征后的输出与每个解码层的特征有相同的维度,其公式表现形式如下, 其中,SFF为算法定义名称,是解码器中的输出,表示批量batchsize大小,表示单个嵌入量,是拼接操作,,也就是说,拼接操作在第一维度上拼接了输入矩阵,是一个压缩函数,SFF算法使用卷积神经网络实现压缩,它使得SFF重新回到,由于来自每个解码器的特征都是的维度,如果维度不相同,提取后的融合特征将不能叠加在原来的解码器顶层,如此一来,最顶层的输出特征便可以与SFF提取的特征进行叠加运算。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中山大学;广州智慧城市发展研究院,其通讯地址为:510000 广东省广州市新港西路135号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。