西南交通大学杜圣东获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉西南交通大学申请的专利一种辅助多源重复数据消重的候选数据筛选方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116578552B 。
龙图腾网通过国家知识产权局官网在2025-08-12发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310438677.2,技术领域涉及:G06F16/215;该发明授权一种辅助多源重复数据消重的候选数据筛选方法是由杜圣东;曹欢;胡节;刘心瑶设计研发完成,并于2023-04-23向国家知识产权局提交的专利申请。
本一种辅助多源重复数据消重的候选数据筛选方法在说明书摘要公布了:本发明公开一种辅助多源重复数据消重的候选数据筛选方法,包括构建多源重复数据集;划分为训练数据集和测试数据集;从训练数据集中取出数据样本,并捕捉数据样本之间的相似度特征;进行预测,获得预测出来的标签;建立匹配点之间的连接图;连接图进行清洗;将已经清洗后的连接图进行图标签的设置,在同一图中的点被视作指向同一实体的相似重复数据,将数据的图预测标签与xgboost模型预测的标签进行比较,选择标签不一致的数据进行重新的人工标注;直到循环次数达到设定的值;对多余数据进行数据删重。该发明能够在实际的应用中,很好的刻画数据中不同长短属性值的相似度,对于多源重复数据删重方面,也能对重复数据有着很好的识别效果。
本发明授权一种辅助多源重复数据消重的候选数据筛选方法在权利要求书中公布了:1.一种辅助多源重复数据消重的候选数据筛选方法,其特征在于,包括以下步骤: 步骤1、对多源重复数据进行预处理,并构建多源重复数据集; 步骤2、将多源重复数据集划分为训练数据集和测试数据集; 步骤3、从训练数据集中取出数据样本,并捕捉数据样本之间的相似度特征; 步骤4、将得到的相似度特征输入到xgboost模型中进行预测,获得预测出来的标签; 步骤5、根据预测出来的标签建立匹配点之间的连接图; 具体是将一个数据点视为连接图中的点,若两条数据被xgboost模型预测标签为匹配,则将两点进行连接,且计算出两点之间边的权重;若两点预测标签为不匹配,则不需要将两点进行连接; 步骤6、根据连接图把训练数据集中已知的不匹配数据摘出,并将构建的连接图进行清洗; 所述清洗过程为:检测已建立的连接图中不匹配的数据是否存在通路,若存在联通的情况,则通过最小切割法将两点进行切割,保证两点之间不存在通路; 步骤7、将已经清洗后的连接图进行图标签的设置,在同一图中的点被视作指向同一实体的相似重复数据,将数据的图预测标签与xgboost模型预测的标签进行比较,选择标签不一致的数据进行重新的人工标注; 步骤8、人工标注后的数据继续给xgboost模型进行预测,重复步骤4至步骤8,直到循环次数达到设定的值; 步骤9、将已识别的重复数据计算之间的相似度,选择最佳数据进行保留,对多余数据进行数据删重。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人西南交通大学,其通讯地址为:610031 四川省成都市二环路北一段;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。