思必驰科技股份有限公司钱彦旻获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉思必驰科技股份有限公司申请的专利知识蒸馏方法、电子设备和存储介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114822518B 。
龙图腾网通过国家知识产权局官网在2025-08-08发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210476439.6,技术领域涉及:G10L15/06;该发明授权知识蒸馏方法、电子设备和存储介质是由钱彦旻;龚勋设计研发完成,并于2022-04-29向国家知识产权局提交的专利申请。
本知识蒸馏方法、电子设备和存储介质在说明书摘要公布了:本发明公开知识蒸馏方法、电子设备和存储介质,其中,一种知识蒸馏方法,包括:在两个蒸馏级别将AR教师模型的知识转移到NAR学生模型,其中,两个蒸馏级别包括帧级蒸馏和序列级蒸馏,编码器的帧级蒸馏和所述编码器的序列级蒸馏在所述编码器的线性层之后完成,解码器的帧级蒸馏和所述解码器的序列级蒸馏从基于注意力的自回归模型发展为Mask‑CTC的自回归模型,其中,所述Mask‑CTC为通过条件掩码语言模型对CTC结果的改进。结果表明,这种知识转移方法缩小了AR和NAR之间的差距,在更困难的评估集即AISHELL‑1中的测试集,Librispeech中的test‑other中,改进明显更大。经过知识转移和蒸馏,由于AR教师的高预测精度,与原始NAR模型相比,长度误差问题得到了很大缓解。
本发明授权知识蒸馏方法、电子设备和存储介质在权利要求书中公布了:1.一种自动语音识别系统训练方法,基于自回归AR教师模型到非自回归NAR学生模型的知识蒸馏,所述非自回归NAR学生模型为非自回归自动语音识别系统,其中,所述方法包括: 在两个蒸馏级别将AR教师模型的知识转移到NAR学生模型,其中,两个蒸馏级别包括帧级蒸馏和序列级蒸馏,编码器的帧级蒸馏和所述编码器的序列级蒸馏在所述编码器的线性层之后完成,解码器的帧级蒸馏和所述解码器的序列级蒸馏从基于注意力的自回归模型发展为Mask-CTC的自回归模型,其中,所述Mask-CTC为通过条件掩码语言模型对CTC结果的改进,由于使用序列级知识蒸馏序列分布逼近指数大小是无法承受的,通过波束搜索访问N-best候选集; 其中,训练的过程中,冻结所述自回归AR教师模型的所有参数,所述非自回归自动语音识别系统的人工标注的结果被特殊标记MASK随机替换,所述条件掩码语言模型解码器根据观察到的标记预测掩码标记;在推理过程中,输出由CTC贪婪解码初始化,低置信度令牌根据预定义的阈值用所述特殊标记MASK代替,之后,使用easy-first算法填充掩码:在迭代中填充所有掩码,每次迭代预测具有最高置信度的前k个令牌,由所述条件掩码语言模型引导,其中,所述令牌是由所述非自回归自动语音识别系统的语音特征映射得到的令牌序列; 其中,在所述Mask-CTC上利用波束搜索方法,以扩大推理阶段的搜索空间,所述波束搜索方法包括:在每次迭代期间,保留一个预设大小的波束,并且更新的令牌的数量固定,至少根据对数域后验概率选择候选集中前预设数量的候选。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人思必驰科技股份有限公司,其通讯地址为:215123 江苏省苏州市苏州工业园区新平街388号腾飞创新园14栋;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。