中国科学院计算技术研究所曹阳获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉中国科学院计算技术研究所申请的专利一种单字错别字识别模型的训练方法及其训练集生成方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114266244B 。
龙图腾网通过国家知识产权局官网在2025-09-05发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202111610175.0,技术领域涉及:G06F40/232;该发明授权一种单字错别字识别模型的训练方法及其训练集生成方法是由曹阳;曹存根;王石设计研发完成,并于2021-12-27向国家知识产权局提交的专利申请。
本一种单字错别字识别模型的训练方法及其训练集生成方法在说明书摘要公布了:本发明提供一种生成用于单字错别字识别模型的训练集的方法,包括:S1、获取语料库,对语料库中的各语句进行分词处理和词性标注,得到多个原始分词序列,每个原始分词序列包括多个分词项以及每个分词项的词性;S2、基于原始分词序列构建各分词项的标签,得到标签序列,其中初始的标签值指示每个分词项对应的文字是正确文字;S3、将相应原始分词序列中一个为单字的分词项替换为与相应单字相似的错误单字,得到带错字分词序列,并更改相应标签序列中单字被替换的分词项对应的标签值以指示其对应的单字为错误文字;S4、重复步骤S3,构建包括多个样本的训练集,每个样本包括分词序列及对应的标签序列,分词序列为原始分词序列或者带错字分词序列。
本发明授权一种单字错别字识别模型的训练方法及其训练集生成方法在权利要求书中公布了:1.一种生成用于单字错别字识别模型的训练集的方法,其特征在于,所述方法包括: S1、获取语料库,对语料库中的各语句进行分词处理和词性标注,得到多个原始分词序列,其中,每个原始分词序列包括多个分词项以及每个分词项的词性; S2、基于原始分词序列构建各分词项的标签,得到标签序列,其中初始的标签值指示每个分词项对应的文字是正确文字; S3、将相应原始分词序列中一个为单字的分词项替换为与相应单字相似的错误单字,得到带错字分词序列,并且更改相应标签序列中单字被替换的分词项对应的标签值以指示其对应的单字为错误文字,其中,所述将相应原始分词序列中一个为单字的分词项替换为与相应单字相似的错误单字为参照多个单字集合混淆对集,并按照分词项的词性进行替换,其中,多个单字集合混淆对集的生成方式包括: 针对每种词性,基于相应词性的单字与相应单字相似的多个错误单字,构建一个单字混淆对集,其中,单字混淆对集包括多个由相应单字和与该单字相似的一个错误单字构建的单字混淆对; 基于相同词性的多个单字的多个单字混淆对集构建相应词性的单字集合混淆对集,获得多个词性不同的单字集合混淆对集; S4、重复步骤S3,构建包括多个样本的训练集,其中每个样本包括分词序列及对应的标签序列,所述分词序列为原始分词序列或者带错字分词序列。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中国科学院计算技术研究所,其通讯地址为:100190 北京市海淀区中关村科学院南路6号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。