恭喜江南大学孙俊获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜江南大学申请的专利一种端到端中文语音识别方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114373451B 。
龙图腾网通过国家知识产权局官网在2025-06-24发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210077486.3,技术领域涉及:G10L15/06;该发明授权一种端到端中文语音识别方法是由孙俊;陈戈;吴豪;吴小俊;方伟;陈祺东;李超;游琪;冒钟杰设计研发完成,并于2022-01-24向国家知识产权局提交的专利申请。
本一种端到端中文语音识别方法在说明书摘要公布了:一种端到端中文语音识别方法,属于语音识别领域。首先探索了基于Transformer编码器和LAS解码器的Transformer‑LAS语音识别模型的效果,并针对Transformer不善于捕捉局部信息的问题,使用Conformer代替Transformer,提出Conformer‑LAS模型;其次,由于Attention过于灵活的对齐方式会使其在嘈杂环境中的效果急剧下降,研究中采用连接时序分类CTC辅助训练以加快收敛,并加入音素级别的中间CTC损失联合优化,提出效果更好的Conformer‑LAS‑CTC语音识别模型;最后,在开源中文普通话Aishell‑1数据集上对提出来的模型进行验证。
本发明授权一种端到端中文语音识别方法在权利要求书中公布了:1.一种端到端中文语音识别方法,其特征在于,步骤如下: 一、数据的预处理 对于语音数据进行预加重、分帧、加窗,进行快速傅里叶变换,计算谱线能量,进行Mel滤波,取对数得到Fbank特征;将预处理后的数据分为训练集和验证集; 二、建立基于Conformer的混合CTCAttention模型 基于Conformer的混合CTCAttention模型包括三个部分:共享Conformer编码器、CTC解码器和LAS注意力解码器; 所述的共享Conformer编码器首先使用卷积子采样层处理输入,将卷积子采样层处理后的数据输入到N个Conformer编码器块中,每个Conformer编码器块依次包括前馈模块、多头自注意力模块MHSA、卷积模块、前馈模块和层归一化,Conformer编码器中每个模块后均设置一个残差单元,其中,前馈模块与多头自注意力模块之间、前馈模块与层归一化之间采用半步残差连接;所述的多头自注意力模块包括层归一化、集成相对正弦位置编码的多头自注意力和dropout;所述的卷积模块包含一个扩展因子为2的逐点卷积,通过GLU激活层投影通道数,然后是一维深度卷积,一维深度卷积后接Batchnorm和swish激活层;共享Conformer编码器将输入的帧级别声学特征x=x1,...xT映射到序列高级表示h=h1,h2,...,hU; 所述的LAS注意力解码器采用两层的单向LSTM结构,且引入注意力机制;具体解码过程为:利用局部注意力来关注共享Conformer编码器器输出的信息,利用LSTM来解码出信息,在每个LSTM的输出过程中,LAS注意力解码器将已经生成的文本y1,y2,...,ys-1联合共享Conformer编码器输出特征h=h1,h2,...,hU进行注意力解码,最终生成目标转录序列y=y1,y2,...,yS,从而得到输出序列y的概率如下: 在每个时间步t,通过注意力机制计算输出对编码器特征h的条件依赖;注意力机制是当前解码器隐藏状态和编码器输出特征的函数,通过以下机制将编码器特征压缩为上下文向量uit; 其中hi为共享Conformer编码器输出特征;向量ba,以及矩阵Wh,Wd都是经过学习得到的参数;dt表示解码器在时间步数t的隐藏状态;然后对uit进行softmax,得到attention分布: αt=softmaxut4 利用αit通过对hi加权求和得到相应的上下文向量: 每一时刻,用于捕捉先前输出上下文的注意力解码器隐藏状态dt经以下方式得到: 其中dt-1是上一个隐藏状态,是通过yt-1学习得到的嵌入层向量;在t时刻,输出yt的后验概率如下: Pyt|h,y<t=softmaxWs[ct;dt]+bs7 其中Ws和bs可学习参数; 所述的CTC解码器以共享Conformer编码器输出特征h作为输入进行解码,经过Softmax层之后,CTC解码器的输出为Pqt|h,qt为t时刻的输出,则标签序列l为所有路径概率总和: 式中:Γqt为标签序列的多对一的映射;因为同一个标签序列有多条路径与其对应,所以需要去掉路径中的重复的标签和空白标签;qt∈A,t=1,2,...,T,A为加了空白标签“-”的标签集合,输出序列中概率最大的标注序列l*为: l*=arglmaxPl|h9 CTC解码器的损失函数是所有标签的负对数概率和,通过反向传播训练CTC网络: CTCloss=-logPl|h10 在CTC解码器训练中跳过中间层之后的所有层,加入中间层音素级别CTC损失,即InterCTCloss作为辅助任务诱导出一个子模型;通过获得CTC解码器的中间表示以计算子模型的损失,与CTC解码器完整模型一样,子模型损失函数如下式: 其中,表示子模型的输出; 基于Conformer的混合CTCAttention模型使用CTC解码器和LAS注意力解码器联合优化模型参数,同时加入中间层音素级别CTC解码器损失,用于正则化较底层参数,因此,在训练过程中定义损失函数如下式: Tloss=λCTCloss+μInterCTCloss+1-λ-μAttloss12 其中,CTCloss,InterCTCloss,Attloss分别是CTC解码器损失,中间层音素级别CTC解码器损失与LAS注意力解码器损失,λ和μ是两个超参数,用于衡量CTC解码器、中间层音素级别CTC解码器与LAS注意力解码器权重; 训练过程中使loss下降曲线收敛到平稳,结束训练,得到最终模型; 三、对基于Conformer的混合CTCAttention模型进行训练,使用训练好的模型对验证集进行验证,实现端到端中文语音识别。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人江南大学,其通讯地址为:214122 江苏省无锡市滨湖区蠡湖大道1800号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。