中电智元数据科技有限公司孟德明获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉中电智元数据科技有限公司申请的专利基于伪标签及交叉验证的小样本实体识别方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119740580B 。
龙图腾网通过国家知识产权局官网在2025-07-22发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411855042.3,技术领域涉及:G06F40/295;该发明授权基于伪标签及交叉验证的小样本实体识别方法及系统是由孟德明;张雄明;冯剑红;陈伍亿;周庆华;戴鹏飞设计研发完成,并于2024-12-17向国家知识产权局提交的专利申请。
本基于伪标签及交叉验证的小样本实体识别方法及系统在说明书摘要公布了:本发明提供了一种基于伪标签及交叉验证的小样本实体识别方法,包括:基于改进型的K折交叉验证算法对已标注数据进行处理,获得训练集以及测试集对基线模型UIE进行训练以及验证获得微调模型;基于预设规则在未标注数据中进行随机批量选取并进行处理后,获得被选取伪数据;基于被选取伪数据以及已标注数据,使用半监督算法和改进型的K折交叉验证算法对基线模型UIE进行训练获得最终模型;基于最终模型对输入文本进行处理,获得实体识别结果。采用未标注数据小样本数据对模型进行训练的目的同时采用改进型的K折交叉验证算法实现了在一个模型上进行微调,提高小样本实体识别模型的泛化能力以及指标性能,完成了小样本情况下实体的精准识别。
本发明授权基于伪标签及交叉验证的小样本实体识别方法及系统在权利要求书中公布了:1.一种基于伪标签及交叉验证的小样本实体识别方法,其特征在于,包括: 基于改进型的K折交叉验证算法对已标注数据进行处理,获得训练集以及测试集对基线模型UIE进行训练以及验证获得微调模型; 基于预设规则在微调模型中对未标注数据进行随机批量选取并进行处理后,获得被选取伪数据; 基于被选取伪数据以及已标注数据,使用半监督算法和改进型的K折交叉验证算法对基线模型UIE进行训练获得最终模型; 基于最终模型对输入文本进行处理,获得实体识别结果; 其中,基于预设规则在微调模型中对在未标注数据中进行随机批量选取并进行处理后,获得被选取伪数据,包括: 根据预设步长以及滑动窗口大小,对未标注数据进行批量选取,获得批量未标注数据; 基于微调模型对批量未标注数据进行预测,得到初级伪数据; 将初级伪数据和已标注数据进行混合得到训练数据; 基于训练数据对基线模型UIE进行训练,获得测试模型; 通过测试模型对测试数据进行测试得到测试结果; 获取每一测试结果对应的测试得分,将测试得分最高的数据视为伪数据; 其中,基于被选取伪数据以及已标注数据,使用半监督算法和改进型的K折交叉验证算法对基线模型UIE进行训练获得最终模型,包括: 基于被选取伪数据以及真实数据获得半监督数据,并基于改进型的K折交叉验证算法将半监督数据分割为K份,用作模型训练集和模型验证集; 基于模型训练集和模型验证集,采用半监督算法对基线模型UIE进行训练获得最终模型。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中电智元数据科技有限公司,其通讯地址为:100000 北京市海淀区学院南路55号B座3层;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。