北京邮电大学郑凤获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉北京邮电大学申请的专利用于机器学习算法的数据预处理方法及相关设备获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN113157987B 。
龙图腾网通过国家知识产权局官网在2026-03-03发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202110513199.8,技术领域涉及:G06F16/9035;该发明授权用于机器学习算法的数据预处理方法及相关设备是由郑凤设计研发完成,并于2021-05-11向国家知识产权局提交的专利申请。
本用于机器学习算法的数据预处理方法及相关设备在说明书摘要公布了:本公开提供一种用于机器学习算法的数据预处理方法及相关设备,所述方法包括:获取待处理的原始数据;基于所述原始数据每个特征的缺失值进行筛查,以得到第一筛查数据;基于所述第一筛查数据中每个特征的相同值进行筛查,以确定第二筛查数据;将所述第二筛查数据中每个特征的缺失值进行填充,以得到完整数据;将所述完整数据按照预设的标准化处理规则进行标准化处理,以获取所述标准化处理后的完整数据。本公开实施例能够对结构化数据进行数据预处理,通过对数据的异常值进行处理,提高了数据的可用性和数据质量,节省了在机器学习算法开发时的大量人力物力。
本发明授权用于机器学习算法的数据预处理方法及相关设备在权利要求书中公布了:1.一种用于机器学习算法的数据预处理方法,包括: 获取待处理的原始数据; 基于所述原始数据每个特征的缺失值进行筛查,以得到第一筛查数据;其中,所述原始数据包括离散数据和连续数据,所述离散数据和连续数据均包括多个特征; 基于所述第一筛查数据中每个特征的相同值进行筛查,以确定第二筛查数据;其中,对所述第一筛查数据中的所述离散数据的每个特征执行以下操作: 基于每个相同值的数量,确定所述相同值在所属特征包含所述缺失值的总数据量中的第二占比; 响应于确定所述第二占比大于预设的第二阈值,将包含所述相同值的特征删除;否则 根据任意一个相同值的数量,确定所述相同值在全部相同值总数据量中的第三占比; 响应于确定所述第三占比大于预设的第三阈值,将包含所述相同值的特征删除; 将所述第二筛查数据中每个特征的缺失值进行填充,以得到完整数据;其中,对于所述第二筛查数据中的所述离散数据的每个特征执行以下操作: 根据缺失值的数量,确定所述缺失值在所属特征总数据量中的第五占比; 响应于确定所述第五占比小于预设的第五阈值,根据每个值出现的频率随机抽取数据对所述缺失值进行填充;否则 基于不包含所述缺失值的数据,通过支持向量机建立分类模型; 根据预先训练的所述分类模型对所述缺失值进行填充; 其中,对于所述第二筛查数据中的所述连续数据的每个特征执行以下操作: 根据缺失值的数量,确定所述缺失值在所属特征总数据量中的第六占比; 响应于确定所述第六占比小于预设的第六阈值,基于非缺失值数据的最大值、最小值以及中位数通过高斯分布对所述缺失值进行填充;否则 基于不包含所述缺失值的数据,通过多项式回归建立回归模型; 根据预先训练的所述回归模型对所述缺失值进行填充; 将所述完整数据按照预设的标准化处理规则进行标准化处理,以获取所述标准化处理后的完整数据。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京邮电大学,其通讯地址为:100876 北京市海淀区西土城路10号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励