浪潮卓数大数据产业发展有限公司钱玉鑫获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉浪潮卓数大数据产业发展有限公司申请的专利一种基于数据源的数据质量检查方法、设备及介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119149527B 。
龙图腾网通过国家知识产权局官网在2025-12-19发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411309718.9,技术领域涉及:G06F16/215;该发明授权一种基于数据源的数据质量检查方法、设备及介质是由钱玉鑫;薛兵;张延群;单震设计研发完成,并于2024-09-19向国家知识产权局提交的专利申请。
本一种基于数据源的数据质量检查方法、设备及介质在说明书摘要公布了:本说明书实施例公开了一种基于数据源的数据质量检查方法、设备及介质,涉及质量检查技术领域,方法包括:获取多个目标检查数据和用户预先设置的质量检查需求信息,并确定每个目标检查数据对应的归属数据源信息;对多个目标检查数据进行整合,以生成目标检查数据集,基于质量检查需求信息和每个目标检查数据对应的归属数据源信息,确定目标检查数据集对应的数据质量规则集合;通过数据质量规则集合,对目标检查数据集进行数据质量检测,确定质量检测结果集,质量检测结果集包括多个问题数据和每个问题数据对应的质量问题类型;根据每个目标检查数据对应的数据源类型,对质量检测结果集进行分析,以生成数据质量检查展示信息。
本发明授权一种基于数据源的数据质量检查方法、设备及介质在权利要求书中公布了:1.一种基于数据源的数据质量检查方法,其特征在于,所述方法包括: 获取多个目标检查数据和用户预先设置的质量检查需求信息,并确定每个所述目标检查数据对应的归属数据源信息,其中,所述归属数据源信息包括归属数据源对应的数据源类型,所述质量检查需求信息包括至少一个数据源类型对应的预置数据质量规则; 对所述多个目标检查数据进行整合,以生成目标检查数据集,基于所述质量检查需求信息和每个所述目标检查数据对应的归属数据源信息,确定所述目标检查数据集对应的数据质量规则集合; 通过所述数据质量规则集合,对所述目标检查数据集进行数据质量检测,确定质量检测结果集,其中,所述质量检测结果集包括多个问题数据和每个所述问题数据对应的质量问题类型; 根据每个所述目标检查数据对应的数据源类型,对所述质量检测结果集进行分析,以生成数据质量检查展示信息; 基于所述质量检查需求信息和每个所述目标检查数据对应的归属数据源信息,确定所述目标检查数据集对应的数据质量规则集合,具体包括: 获取所述目标检查数据集中每个所述目标检查数据对应的归属数据源标识信息,并按照所述归属数据源标识信息进行分类,以生成所述目标检查数据集对应的归属数据源列表; 通过所述质量检查需求信息中每个指定数据源类型对应的预置数据质量规则和所述归属数据源列表,为所述归属数据源列表中指定数据源类型对应的多个指定目标检查数据设置所述预置数据质量规则,生成质量规则标识; 基于所述质量规则标识,在所述归属数据源列表中进行规则状态更新,以确定除所述指定数据源类型之外的至少一个其他数据源类型; 根据每个指定数据源类型对应的预置数据质量规则,对所述其他数据源类型的质量规则进行预测,生成每个所述其他数据源类型对应的预测数据质量规则; 通过所述预测数据质量规则和所述预置数据质量规则,确定所述目标检查数据集对应的数据质量规则集合; 根据每个指定数据源类型对应的预置数据质量规则,对所述其他数据源类型的质量规则进行预测,生成每个所述其他数据源类型对应的预测数据质量规则,具体包括: 对多个所述预置数据质量规则进行转换,确定每个所述预置数据质量规则对应的规则特征信息; 根据每个所述预置数据质量规则对应的规则特征信息和多个所述指定数据源类型,构建规则训练数据集; 通过所述规则训练数据集,对预先确定的分类模型进行训练,以调整模型参数,确定规则预测模型; 根据所述规则预测模型,对所述其他数据源类型的质量规则进行预测,生成每个所述其他数据源类型对应的预测数据质量规则; 通过所述预测数据质量规则和所述预置数据质量规则,确定所述目标检查数据集对应的数据质量规则集合,具体包括: 将所述指定数据源类型的预置数据质量规则应用于对应的目标检查数据,并建立所述预置数据质量规则和所述指定数据源类型的指定规则映射关系; 将所述预测数据质量规则,应用于对应的其他数据源类型的目标检查数据,并建立所述预测数据质量规则和所述其他数据源类型的其他规则映射关系; 根据多个所述预置数据质量规则、所述指定规则映射关系、所述预测数据质量规则和所述其他规则映射关系,确定所述目标检查数据集对应的数据质量规则集合; 根据每个所述目标检查数据对应的数据源类型,对所述质量检测结果集进行分析,以生成数据质量检查展示信息,具体包括: 按照每个所述目标检查数据对应的数据源类型,对所述质量检测结果集进行分类统计,确定每种数据源类型对应的多种质量问题统计指标,其中,所述质量问题统计指标包括质量问题总数和每种质量问题类型对应的占比数据; 通过每种数据源类型对应的多种质量问题统计指标,生成数据质量检查报告,以基于所述数据质量检查报告,生成所述数据质量检查展示信息。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人浪潮卓数大数据产业发展有限公司,其通讯地址为:214002 江苏省无锡市经济开发区丰润道1号雪浪小镇数据创新中心B4栋5层;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励