上海天旦网络科技发展有限公司支凤麟获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉上海天旦网络科技发展有限公司申请的专利基于故障样本贡献解释的标签数据清洗方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116738142B 。
龙图腾网通过国家知识产权局官网在2026-04-21发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310323297.4,技术领域涉及:G06F18/10;该发明授权基于故障样本贡献解释的标签数据清洗方法及系统是由支凤麟;蔡晓华;杨光辉设计研发完成,并于2023-03-28向国家知识产权局提交的专利申请。
本基于故障样本贡献解释的标签数据清洗方法及系统在说明书摘要公布了:本发明提供了一种基于故障样本贡献解释的标签数据清洗方法及系统,所述方法包括如下步骤:步骤S1:对故障样本数据进行划分,形成多个故障样本聚类簇;步骤S2:使用简单模型进行故障样本聚类簇的初筛,形成精筛故障样本簇集合;步骤S3:穷举所有精筛故障样本簇集合中簇的所有组合方法,训练故障检测模型,得到每个模型在各种组合下的效果得分;步骤S4:基于每个模型的评估效果,计算每个精筛样本簇对故障检测模型的所有组合下的平均边际贡献值,基于平均边际贡献值清洗数据。本发明提高了清洗包含异常“标签数据”的效率,能有效清洗与“特征”无关的“标签”样本,并具有良好的可解释性。
本发明授权基于故障样本贡献解释的标签数据清洗方法及系统在权利要求书中公布了:1.一种基于故障样本贡献解释的标签数据清洗方法,其特征在于,所述方法包括如下步骤: 步骤S1:对故障样本数据进行划分,形成多个故障样本聚类簇; 步骤S2:使用简单模型进行故障样本聚类簇的初筛,形成精筛故障样本簇集合; 步骤S3:穷举所有精筛故障样本簇集合中簇的所有组合方法,训练故障检测模型,得到每个模型在各种组合下的效果得分; 步骤S4:基于每个模型的评估效果,计算每个精筛样本簇对故障检测模型的所有组合下的平均边际贡献值,基于平均边际贡献值清洗数据; 所述步骤S1包括如下步骤: 步骤S1.1:对故障样本数据进行聚类; 步骤S1.2:基于经验重新划分少样本的样本簇,设定样本簇的最少样本数,记为min_cluster_size,样本数量少于min_cluster_size的样本簇称为少样本的样本簇; 所述步骤S2包括如下步骤: 步骤S2.1:使用简单模型对所有样本簇逐一进行去一拟合,并获得到每个样本簇的增益分值; 步骤S2.2:根据增益分值得到精筛样本簇集合,将每个簇的增益分值从低到高排序,选择分值最低的x个样本簇,或者选择增益分值小于thre_lift小于等于1的浮点数的样本簇,共同构成精筛样本簇集合; 所述步骤S2.1包括如下步骤: 步骤S2.1.1:使用所有故障样本簇与非故障样本数据共同训练故障简单分类模型,并计算该模型的AUC值,将该AUC值记为auc_all; 步骤S2.1.2:从待筛选样本簇集合不重复地选择样本簇c,将样本簇c从带筛选样本簇集合中移除,将该数据与非故障样本数据合并,得到样本簇c的去一拟合训练数据; 步骤S2.1.3:使用样本簇c的去一拟合训练数据训练简单故障分类模型,而后计算模型的AUC值,记为auc_remove_c; 步骤S2.1.4:计算得到样本簇c的增益分值,记为lift_score_c: lift_score_c=auc_all-auc_remove_c; 步骤S2.1.5:重复步骤S2.1.2到步骤S2.1.4得到每个簇的增益分值。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人上海天旦网络科技发展有限公司,其通讯地址为:200086 上海市虹口区峨嵋路315号8752室;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励