成都数据集团股份有限公司邓建平获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉成都数据集团股份有限公司申请的专利一种适用于大数据分析的数据预处理方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120234545B 。
龙图腾网通过国家知识产权局官网在2025-08-26发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510694210.3,技术领域涉及:G06F18/15;该发明授权一种适用于大数据分析的数据预处理方法及系统是由邓建平;詹国林;伍勇波;马永华设计研发完成,并于2025-05-28向国家知识产权局提交的专利申请。
本一种适用于大数据分析的数据预处理方法及系统在说明书摘要公布了:本发明公开了一种适用于大数据分析的数据预处理方法及系统,涉及数据预处理技术领域。包括通过大数据收集原始数据;使用动态相关性补充方法计算补充值,对数据的缺失特征值进行补充,对缺失特征值的补充更加符合数据的整体趋势,提高补充值准确性;通过可靠性常数计算方法获取不同来源的可靠性常数,对不同来源的数据进行不同比例的抽取;将数据进行合并、统一和归一化处理。本发明通过动态相关性补充方法计算补充值,对数据的缺失特征值进行补充,根据数据的其他特征值与缺失特征值的相关性,确定其他特征值对缺失特征值的相关权重,相关性呈动态变化,对缺失特征值的补充更加符合数据的整体趋势,提高补充值准确性。
本发明授权一种适用于大数据分析的数据预处理方法及系统在权利要求书中公布了:1.一种适用于大数据分析的数据预处理方法,其特征在于:包括: 通过大数据收集相关原始数据,并记录数据来源; 原始数据进行去重后,使用动态相关性补充方法计算补充值,对数据的缺失特征值进行补充; 通过可靠性常数计算方法获取不同来源的可靠性常数,根据不同来源的数据可靠性常数,对不同来源的数据进行不同比例的抽取; 将来自不同来源、不同格式的数据进行合并和统一处理,对数据进行格式转换、编码统一操作,使数据在结构和语义上保持一致; 将集成后的数据进行归一化处理,使数据具有相同的尺度和分布; 所述动态相关性补充方法包括: S1:根据数据的其余特征值计算每个特征值对缺失特征值的相关系数,依据公式: , 为获取的数据中的样本数量,其中为第j个特征和第k个特征之间的相关系数,为第i个样本的第j个特征的特征值,为n个样本中第j个特征的均值,为第i个样本的第k个特征的特征值,为n个样本中第k个特征的均值; S2:根据相关系数确定其他特征与缺失特征之间的相关权重,根据公式: , 其中为表示第k个特征对于填补第j个特征缺失值的相关权重,为每个样本的特征数量; S3:根据历史数据获取拟合的线性关系并计算相关补充值,依据公式: , , 其中为因变特征值,为截距项,代表第k个特征的特征值,为特征k的回归系数,为误差项,为样本i中第j个特征的相关补充值,为第i个样本的第k个特征的特征值; S4:使用的值对样本i中第j个特征进行补充。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人成都数据集团股份有限公司,其通讯地址为:610000 四川省成都市高新区吉瑞四路399号1栋8楼5、6号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。