Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 积分商城 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 西南交通大学杜圣东获国家专利权

西南交通大学杜圣东获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉西南交通大学申请的专利一种基于预训练主动学习的重复数据融合检测方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116467299B

龙图腾网通过国家知识产权局官网在2025-11-14发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310441059.3,技术领域涉及:G06F16/215;该发明授权一种基于预训练主动学习的重复数据融合检测方法是由杜圣东;刘心瑶;李天瑞;胡节设计研发完成,并于2023-04-23向国家知识产权局提交的专利申请。

一种基于预训练主动学习的重复数据融合检测方法在说明书摘要公布了:本发明公开一种基于预训练主动学习的重复数据融合检测方法,包括在标记数据集中生成候选对,并将候选对进行序列化获得序列化数据集;将序列化数据集输入NER模型来识别已知类型,并使用正则表达式来识别特定类型;对序列化数据集进行预处理;将预处理后的序列化数据集输入预训练模型Bert,将选择当前模型在未标记数据集中最不确定的数据,并进行标记,再将已标记的数据将输入标记数据集;使用R‑Drop策略进行数据增强对步骤4中的标记数据集进行增强;将增强后的标记数据集继续迭代,获得最终的标记数据集。本发明结合了结合主动学习算法,选择最有价值的数据进行手工标注,降低人工标注的成本,用少量数据快速提高模型的质量。

本发明授权一种基于预训练主动学习的重复数据融合检测方法在权利要求书中公布了:1.一种基于预训练主动学习的重复数据融合检测方法,其特征在于,包括以下步骤: 步骤1、首先使用Block策略在标记数据集中生成候选对,并将候选对进行序列化获得序列化数据集; 根据以下公式进行序列化; 式中:为序列化后的数据; 步骤2、将序列化数据集输入NER模型来识别已知类型,并使用正则表达式来识别特定类型; 所述NER模型为: 式中:为序列化后的数据;为实体的起始位置;为实体的结束位置;为被识别实体的标签; 步骤3、对序列化数据集进行预处理; 步骤4、将预处理后的序列化数据集输入预训练模型Bert,将选择当前模型在未标记数据集中最不确定的数据,并进行标记,再将已标记的数据将输入标记数据集; 步骤5、使用R-Drop策略进行数据增强对步骤4中的标记数据集进行增强; 步骤6、将增强后的标记数据集重复步骤1-5继续迭代,直到迭代结束,获得最终的标记数据集。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人西南交通大学,其通讯地址为:610031 四川省成都市二环路北一段;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。