北京工商大学谢涛获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉北京工商大学申请的专利基于自监督预训练和交互式融合网络的语音识别方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116631383B 。
龙图腾网通过国家知识产权局官网在2025-12-19发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310852643.8,技术领域涉及:G10L15/06;该发明授权基于自监督预训练和交互式融合网络的语音识别方法是由谢涛;曹静;钱兆鹏;于重重设计研发完成,并于2023-07-12向国家知识产权局提交的专利申请。
本基于自监督预训练和交互式融合网络的语音识别方法在说明书摘要公布了:本发明公布了一种基于自监督预训练和交互式融合网络的语音识别方法,构建语音识别模型,将自监督预训练模型作为语音增强模块后的特征提取部分,将语音增强模块与自监督预训练方法进行有效组合并,缓解因语音增强所带来的语音失真;利用交互式特征融合方法将增强特征和原始音频特征进行融合,以弥补在语音增强过程中的信息缺失。采用本发明方法,能够使低资源语音识别结果更加准确,提高低资源在复杂环境下的识别精度。
本发明授权基于自监督预训练和交互式融合网络的语音识别方法在权利要求书中公布了:1.一种基于自监督预训练和交互式融合网络的语音识别方法,其特征是,包括如下步骤: 1预先构建语音识别模型; 所述的语音识别模型包括语音增强模块、特征提取模块、交互式特征融合模块和语音识别模块;其中, 1a所述语音增强模块用于提高语音信号的质量和可懂度; 语音增强模块包括依次连接的双向长短期记忆网络,dropout层和前馈层; 1b所述特征提取模块用于提取语音信号中的特征表示; 特征提取模块包含卷积特征编码器,上下文表示模块和量化模块; 特征提取模块训练过程中的损失包括对比损失Lm和多样性损失Ld; 1c所述交互式特征融合模块用于弥补音频特征在语音增强过程中部分缺失的信息; 交互式特征融合模块由两条分支组成,分别为增强音频分支和原始音频分支;交互式特征融合模块包括依次连接的上采样卷积,剩余注意力模块,交互模块,下采样卷积和合并模块;其中: 所述上采样卷积,用于对增强特征和原始特征进行特征提取; 所述剩余注意力模块用于捕捉音频特征中局部特征和全局特征,该模块由残差块,时间自注意力块,频率自注意力块和卷积层组成;其中,每个残差块中含有二维卷积,用来提取深度局部特征XRes;然后将通过残差块的深度局部特征XRes分别送入到时间注意力模块和频率注意力模块中,获得沿时间维度的深度全局特征XTemp和沿频率维度的深度全局特征XFreq;最后将关于时间和频率的全局特征与XRes进行连接后送入到二维卷积层,获得最终输出XRA; 交互模块用于增强特征和原始音频特征进行交互学习,包括:增强特征学习原始音频特征中的信息e2n和原始音频特征学习增强特征中的信息n2e;分别获得加强版本的增强特征即新增强特征和加强版本的原始音频特征即新原始特征; 下采样卷积用于将得到的新增强特征和新原始特征进行下采样,使其与原始输入保持拥有相同的通道数; 合并模块用于进行合并操作,将模型初始输入的原始音频特征和增强特征,与进行交互操作并进行下采样操作后得到的增强特征和原始音频特征进行简单拼接后,输入到合并模块,在经过合并模块中的二维卷积和时间注意力模块后,得到可控制交互特征去留的掩码M;最后得到融合特征Z; 1d所述语音识别模块用于得到待识别语音相对应的说话内容即预测标签; 对语音识别模块进行训练,具体是将融合特征Z输入语音识别模块,获取融合特征的编码输出,得到输入语音对应的预测标签; 2将带噪声的原始语音波形经语音增强模块进行语音增强,得到增强波形; 3将增强波形和原始语音波形分别经特征提取模块得到声学特征,分别为增强特征和原始特征; 4将增强特征和原始特征经交互式特征融合模块进行融合后,输入语音识别模块,输出语音识别结果; 5根据预测标签与语音对应的真实标签进行语音识别损失的计算,并与计算得到的语音增强损失进行加权相加;训练过程中对模型的参数进行更新,反复迭代,直至训练得到最优参数组合;即得到训练好的语音识别模型; 6利用训练好的语音识别模型,实现基于自监督预训练和交互式融合网络的语音识别。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京工商大学,其通讯地址为:100048 北京市海淀区阜成路33号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励