北京智齿众服技术咨询有限公司吴科获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉北京智齿众服技术咨询有限公司申请的专利一种语音识别中快速标注声学模型训练数据的方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114694639B 。
龙图腾网通过国家知识产权局官网在2026-02-17发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210258526.4,技术领域涉及:G10L15/04;该发明授权一种语音识别中快速标注声学模型训练数据的方法是由吴科;徐正虹;吴立楠设计研发完成,并于2022-03-16向国家知识产权局提交的专利申请。
本一种语音识别中快速标注声学模型训练数据的方法在说明书摘要公布了:本发明公开了一种语音识别中快速标注声学模型训练数据的方法。该方法运用已训练的基础的声学模型进行语音识别工作;对记录的识别错误的词语和句子,使用音频切割工具进行切割,得到识别错误的音频文件WrongPart;将预先准备的正确原始文本句子中对应于所述WrongPart的词语删除后得到原始文本中剩余的文本ResidueScript,并标记删除位置;将相应的音频文件ResidueWav与WrongPart按照原始文字位置进行组合,得到一条声学模型的标注数据,最终多条不同的TrainFile组成用于声学模型微调的训练集,用于声学模型的微调,从而高效地达到修正ASR易错部分的目的。
本发明授权一种语音识别中快速标注声学模型训练数据的方法在权利要求书中公布了:1.一种语音识别中快速标注声学模型训练数据的方法,其特征在于,包括: 运用已训练的基础的声学模型进行语音识别工作,其中会出现识别错误的词语和句子; 对记录的识别错误的词语和句子,使用音频切割工具进行切割,得到识别错误的音频文件,记为WrongPart,WrongPart包含识别的一个或多个词语; 将预先准备的正确原始文本句子中对应于所述WrongPart的词语删除,并标记删除位置;删除后得到的原始文本中剩余的文本,记为ResidueScript; 利用语音合成系统将所述ResidueScript转换为音频文件,记为ResidueWav,将ResidueWav与WrongPart按照原始文字位置进行组合,使WrongPart填补所述删除位置,得到一条声学模型的标注数据,记为TrainFile; 多条不同的TrainFile组成用于声学模型微调的训练集TrainFiles; 所述已训练的基础的声学模型,按照以下方式得到: 获取设定行业批量的待标注音频数据,并按照语音主体身份类型进行划分; 对于确定语音主体身份类型的待标注音频数据,调用已有的两种语音识别工具分别进行识别,相应得到第一初步识别结果数据集和第二初步识别结果数据集; 使用文本编辑距离算法计算第一初步识别结果数据集与第二初步识别结果数据集之间的文本编辑距离,保留编辑距离小于预设阈值的识别结果及对应的原始音频作为主体数据加入到预标注集,对于编辑距离大于以及等于预设阈值的识别结果,提取部分识别结果及对应的原始音频作为附加数据也加入到预标注集;所述主体数据的音频总时长远大于所述附加数据的源数据的音频总时长; 所述预标注集经过校验后作为用于训练声学模型的基础训练集;利用所述基础训练集训练得到基础的声学模型。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京智齿众服技术咨询有限公司,其通讯地址为:100070 北京市丰台区南四环西路186号二区9号楼-1至11层101内2层16室;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励