恭喜腾讯科技(深圳)有限公司王明获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜腾讯科技(深圳)有限公司申请的专利一种语料处理的方法、相关装置及设备获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN113821593B 。
龙图腾网通过国家知识产权局官网在2025-06-27发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202110774306.2,技术领域涉及:G06F16/334;该发明授权一种语料处理的方法、相关装置及设备是由王明;包恒耀设计研发完成,并于2021-07-08向国家知识产权局提交的专利申请。
本一种语料处理的方法、相关装置及设备在说明书摘要公布了:本申请实施例公开了一种语料处理的方法、相关装置及设备,用于使待扩充语料得到充足扩展,从而满足模型训练对语料的数量的需求。本申请实施例方法包括:获取待扩充语料,根据待扩充语料获取K个候选语料,将K个候选语料以及待扩充语料输入至语义识别模型,以得到K个语义识别结果,其中,每个语义识别结果为相似度分值或相似度分类,相似度分值表示候选语料与待扩充语料之间的语义相似程度,相似度分类表示候选语料与待扩充语料之间的语义所属类别,若K个语义识别结果中存在至少一个语义识别结果满足语料提取条件,则将至少一个语义识别结果所对应的候选语料确定为目标语料,以得到属于待扩充语料的至少一个目标语料。
本发明授权一种语料处理的方法、相关装置及设备在权利要求书中公布了:1.一种语料处理方法,其特征在于,包括: 获取待扩充语料; 根据所述待扩充语料获取K个候选语料,其中,每个候选语料与所述待扩充语料之间的语义相似度大于或等于相似度阈值,所述K为大于1的整数; 将所述K个候选语料以及所述待扩充语料输入至语义识别模型,以得到K个语义识别结果,其中,每个语义识别结果为相似度分值或相似度分类,所述相似度分值表示候选语料与所述待扩充语料之间的语义相似程度,所述相似度分类表示候选语料与所述待扩充语料之间的语义所属类别; 若所述K个语义识别结果中存在至少一个语义识别结果满足语料提取条件,则将所述至少一个语义识别结果所对应的候选语料确定为目标语料,以得到属于所述待扩充语料的至少一个目标语料; 若所述K个语义识别结果中不存在语义识别结果满足语料提取条件,则将所述待扩充语料翻译为N个语种对应的N个语种语料; 根据所述待扩充语料的语种,将所述N个语种语料翻译为至少N个回译语料; 若所述K个语义识别结果中不存在语义识别结果满足语料提取条件,则将所述K个候选语料进行分类,得到第一候选语料集合以及第二候选语料集合,其中,所述第一候选语料集合中包括i个第一候选语料,所述第二候选语料集合包括j个第二候选语料,所述i以及所述j均为大于1小于K的整数;所述第一候选语料集合与所述待扩充语料的相似度大于所述第二候选语料集合与所述待扩充语料的相似度; 将所述i个第一候选语料分别与所述j个第二候选语料进行两两组合,得到i*j个目标语料对。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人腾讯科技(深圳)有限公司,其通讯地址为:518057 广东省深圳市南山区高新区科技中一路腾讯大厦35层;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。