中国环境监测总站;广东旭诚科技有限公司汪太明获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉中国环境监测总站;广东旭诚科技有限公司申请的专利一种基于XGBoost算法的PM2.5数据异常识别方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114462511B 。
龙图腾网通过国家知识产权局官网在2025-09-09发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210053540.0,技术领域涉及:G06F18/2433;该发明授权一种基于XGBoost算法的PM2.5数据异常识别方法是由汪太明;侯玉婧;孟双双;王启蒙;尤洋;刘超;郭亚静设计研发完成,并于2022-01-18向国家知识产权局提交的专利申请。
本一种基于XGBoost算法的PM2.5数据异常识别方法在说明书摘要公布了:本发明公开了一种基于XGBoost算法的PM2.5数据异常识别方法,包括:步骤1:采集国控站六项污染物的小时数据,步骤2:数据预处理,步骤3:从原始数据中提取特征,步骤4:模型训练与测试,步骤5:异常数据分析,步骤6:运维事件标识并去除,步骤7:气象监测要素整合,步骤8:仪器设备参数异常判定。本发明利用机器学习实现异常数据的自动识别,将机器学习应用到国家空气监测站审核平台,实现数据异常识别自动化,同时自动化的审核机制可以做到实时对数据进行质量控制;一方面可以减少人工审核的局限性,精准识别异常数据,减少出错率,另一方面可以减轻数据复核人员的工作负担和压力以及进一步减少人力成本。
本发明授权一种基于XGBoost算法的PM2.5数据异常识别方法在权利要求书中公布了:1.一种基于XGBoost算法的PM2.5数据异常识别方法,其特征在于,包括以下步骤: 步骤1:采集国控站六项污染物的小时数据,形成原始数据; 步骤2:数据预处理,对原始数据进行预处理,提高原始数据质量; 步骤3:从原始数据中提取特征,对原始数据进行观察,构建四大类特征; 步骤4:模型训练与测试,确定XGBoost算法作为训练模型并测试; 步骤5:异常数据分析,对于模型识别后的异常数据,进一步进行分析,分析后的数据用于后续调整模型参数,改善模型性能; 所述步骤5具体包括以下步骤: 步骤5-1:将城市进行聚类,目标城市与周边城市PM2.5数据逐月对比分析,通过相对偏差法和相邻月相对偏差变幅法研判该城市整体数据质量异常变化情况,其中,相对偏差法的计算公式为: 相对偏差(%)=(目标城市月均值-除目标城市外其他城市月均值的均值)除目标城市外其他城市月均值的均值*100%, 相邻月相对偏差变幅法的计算公式为: 相对偏差变幅(%)=本月偏差-上月偏差; 步骤5-2:将分析后得到的最优参数组合作为XGBoost参数重新训练模型,并对测试集进行预测; 步骤5-3:评估测试集结果,在该参数上进行调优; 步骤6:运维事件标识并去除,数据分析时,将运维前、后的时间段对数据造成影响的,去除相应时段的监测数据; 步骤7:气象监测要素整合,通过分析点位气象参数,结合数据情况综合判断数据有效性; 所述步骤7具体包括以下步骤: 步骤7-1:确定需要进行分类的监测指标,按照环境空气质量标准进行等级划分,对原始数据进行训练集和测试集的划分,利用训练集的数据构建决策树; 步骤7-2:建好决策树后利用测试集数据进行验证,验证决策树构建的效果,并根据测试结果优化和调整模型; 步骤7-3:构建最终模型树型结构,输出分类结果中每个类别对应的监测指标取值范围以及每个树枝预测的准确率; 步骤7-4:对于分类准确率小于85%的树枝重新进行样本的选择和决策树的训练,给予预测率较低的级别以较大的权重进入到训练集中,重复以上步骤,直到分类准确率均在85%以上为止; 步骤7-5:输出各树型对应的监测参数范围,利用反推过程对多个监测指标的检测样本进行质量控制,多个监测指标的检测样本的某个参数对应标准范围之外判断为异常值,反之为正常监测,直到遍历完多有的待检测样本为止; 步骤8:仪器设备参数异常判定,对其他原因导致的站点数据发生变化,进行数据分析时再次判定关键参数的异常情况。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中国环境监测总站;广东旭诚科技有限公司,其通讯地址为:100020 北京市朝阳区安外大羊坊8号院乙;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。