北京云迹科技股份有限公司张献涛获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉北京云迹科技股份有限公司申请的专利文本语料筛选方法、装置、设备及存储介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114783424B 。
龙图腾网通过国家知识产权局官网在2025-11-18发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210275587.1,技术领域涉及:G10L15/06;该发明授权文本语料筛选方法、装置、设备及存储介质是由张献涛;曾祥永;支涛设计研发完成,并于2022-03-21向国家知识产权局提交的专利申请。
本文本语料筛选方法、装置、设备及存储介质在说明书摘要公布了:本公开提供一种文本语料筛选方法、装置、设备及存储介质。该方法包括:获取基础文本语料库以及目标对象的录音语料,利用语音识别模型对语音数据进行识别得到第一音素序列,对语音文本进行音素转换得到第二音素序列;根据第一音素序列及第二音素序列生成评价序列,基于评价序列生成评价训练数据集,利用评价训练数据集训练评价模型;依次选取基础文本语料库中的每个语料,计算语料添加到目标语料集合时的增益,并利用评价模型对每个语料的音素序列进行预测,根据增益以及评价模型的预测结果,对每个语料进行打分;根据打分结果以及筛选条件生成目标语料集合。本公开能够为目标对象生成个性化的文本语料,提高文本语料的质量,提升模型的调优效果。
本发明授权文本语料筛选方法、装置、设备及存储介质在权利要求书中公布了:1.一种文本语料筛选方法,其特征在于,包括: 获取基础文本语料库以及目标对象的录音语料,其中所述录音语料中包含语音数据以及所述语音数据对应的语音文本; 利用预设的语音识别模型对所述语音数据进行识别,得到所述语音数据对应的第一音素序列,对所述语音数据对应的语音文本执行音素转换操作,得到所述语音文本对应的第二音素序列; 根据所述第一音素序列以及所述第二音素序列生成评价序列,基于所述评价序列生成评价训练数据集,利用所述评价训练数据集对评价模型进行训练,得到训练后的评价模型; 依次选取所述基础文本语料库中的每个语料,计算每个所述语料添加到目标语料集合时对应的增益,并利用所述训练后的评价模型对每个所述语料对应的音素序列进行预测,根据所述增益以及所述评价模型的预测结果,对每个所述语料进行打分; 根据每个所述语料对应的打分结果以及预设的筛选条件,将符合所述筛选条件时的语料添加到所述目标语料集合中,以得到筛选后的目标语料集合; 其中,所述利用所述训练后的评价模型对每个所述语料对应的音素序列进行预测,根据所述增益以及所述评价模型的预测结果,对每个所述语料进行打分,包括: 将从所述基础文本语料库中选取出的语料对应的音素序列作为所述评价模型的输入,利用所述评价模型预测所述音素序列中每个位置所对应音素的错误概率;根据所述音素序列中每个位置所对应音素的错误概率以及所述语料对应的增益对所述语料进行打分,得到所述语料对应的打分结果; 通过定义一个函数表示语料y添加到目标语料集合Yset中时所产生的增益,即判断一个新增语料y,对于原来的目标语料集合Yset带来的增益情况,以控制音素的平衡,增益计算函数表示如下: cαYset,y=fnαYset∪y-fnαYset 其中,函数nαYset表示一个音素α在目标语料集合Yset中的出现次数,f对应函数为其中T为阈值。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京云迹科技股份有限公司,其通讯地址为:100089 北京市海淀区北四环西路67号7层702室;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励