济南科金信息技术有限公司王蒙蒙获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉济南科金信息技术有限公司申请的专利一种文件系统的自动化文件数据清洗方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120610951B 。
龙图腾网通过国家知识产权局官网在2025-11-04发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511081882.3,技术领域涉及:G06F16/215;该发明授权一种文件系统的自动化文件数据清洗方法是由王蒙蒙;王腾飞;李长山;高翔;迟旭东;丁琦;韩冰;胡颖异;纪晓斌;刘壮斌;郑文栋设计研发完成,并于2025-08-04向国家知识产权局提交的专利申请。
本一种文件系统的自动化文件数据清洗方法在说明书摘要公布了:本发明涉及自动化文件整合的技术领域,具体涉及一种文件系统的自动化文件数据清洗方法,方法包括:获取类型标识、需求信息、多个文件类型以及每一个文件类型包括的多个待处理合同文件,根据每一个待处理合同文件的数据类型复杂度及数据量,得到对应的文件复杂度;根据每一个待处理合同文件的文件复杂度、文件名及文件内容同需求信息的匹配度,得到对应的需求匹配度;根据每一个待处理合同文件的需求匹配度,确定每一个文件类型对应的关键文件;在多个关键文件中识别基准文件,并基于基准文件对多个待处理合同文件进行数据清洗。本发明能使得多个待处理合同文件获得更好的数据清洗效果,以将PDF格式的合同准确转换为EXCEL格式的文件。
本发明授权一种文件系统的自动化文件数据清洗方法在权利要求书中公布了:1.一种文件系统的自动化文件数据清洗方法,其特征在于,方法包括: 获取类型标识、需求信息、多个文件类型以及每一个文件类型包括的多个待处理合同文件,类型标识用于在多个文件类型中指示目标文件类型; 根据每一个待处理合同文件的数据类型复杂度以及数据量,得到每一个待处理合同文件的文件复杂度; 根据每一个待处理合同文件的文件复杂度、文件名和需求信息之间的第一匹配度、文件内容和需求信息之间的第二匹配度,得到每一个待处理合同文件的需求匹配度; 根据每一个待处理合同文件的需求匹配度,确定每一个文件类型对应的关键文件,其中,关键文件为对应文件类型所包括多个待处理合同文件中,需求匹配度最高的待处理合同文件; 在多个关键文件中识别基准文件,其中,基准文件为:目标文件类型对应的关键文件,和或,多个文件类型中类型复杂度最高的文件类型对应的关键文件,类型复杂度基于对应的文件类型所关联的多个文件复杂度计算得到; 基于基准文件对多个待处理合同文件进行数据清洗; 每一个待处理合同文件的文件名和需求信息之间的第一匹配度的获取步骤,包括: 对每一个待处理合同文件的文件名进行分词处理,得到每一个待处理合同文件的标题词组;以及对需求信息进行分词处理,得到需求词组; 将每一个待处理合同文件的标题词组和需求词组之间的交并比,确定为每一个待处理合同文件的文件名和需求信息之间的第一匹配度; 每一个待处理合同文件的文件内容和需求信息之间的第二匹配度的获取步骤,包括: 对每一个待处理合同文件的文件内容进行分词处理,得到每一个待处理合同文件的内容词组;以及对需求信息进行分词处理,得到需求词组; 对每一个待处理合同文件的内容词组进行语义扩展,得到每一个待处理合同文件的上位词组;以及对需求词组进行语义扩展,得到下位词组,其中,每一个待处理合同文件的内容词组中的多个第一分词和对应上位词组中的多个第二分词一一对应,第二分词为对应的第一分词的上位词,需求词组包括的多个第三分词和下位词组包括的多个第四分词一一对应,第四分词为对应的第三分词的下位词; 对每一个待处理合同文件的上位词组和下位词组进行关联分析,得到每一个待处理合同文件的文件内容和需求信息之间的第二匹配度。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人济南科金信息技术有限公司,其通讯地址为:250000 山东省济南市历下区和平路47号诚基中心22号-32号楼257;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励