当前位置 : 首页 > 专利喜报 > 企知道科技有限公司臧智涛获国家专利权

企知道科技有限公司臧智涛获国家专利权

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

龙图腾网获悉企知道科技有限公司申请的专利一种大规模xml数据的解析方法及系统获国家发明授权专利权，本发明授权专利权由国家知识产权局授予，授权公告号为：CN117290310B 。

龙图腾网通过国家知识产权局官网在2025-10-24发布的发明授权授权公告中获悉：该发明授权的专利申请号/专利号为：202311010952.7，技术领域涉及：G06F16/16；该发明授权一种大规模xml数据的解析方法及系统是由臧智涛设计研发完成，并于2023-08-10向国家知识产权局提交的专利申请。

本一种大规模xml数据的解析方法及系统在说明书摘要公布了：一种大规模xml数据的解析方法及系统，涉及大数据技术领域。在该方法中，从文件系统中读取xml文件集合；对xml文件集合进行数据清洗预处理，得到预处理后的xml文件集合；预处理后的xml文件集合中包括多个预处理后的xml子文件；将多个预处理后的xml子文件作为多个xml节点；基于Spark数据处理框架对多个xml节点进行解析，得到第一解析数据；第一解析数据为结构化数据；接收至少一个解析数据输出请求，解析数据输出请求携带数据输出条件；根据数据输出条件对应的输出方式，输出第一解析数据。实施本申请提供的技术方案，可以在处理大规模xml数据时有效提高解析和输出的效率。

本发明授权一种大规模xml数据的解析方法及系统在权利要求书中公布了：1.一种大规模xml数据的解析方法，其特征在于，所述方法包括：从文件系统中读取xml文件集合；所述xml文件集合中包括多个xml子文件；对所述xml文件集合进行数据清洗预处理，得到预处理后的xml文件集合；所述预处理后的xml文件集合中包括多个预处理后的xml子文件，所述预处理后的xml子文件包括多个初始属性；将多个所述预处理后的xml子文件作为多个xml节点；基于Spark数据处理框架对多个所述xml节点进行解析，得到第一解析数据；所述第一解析数据为结构化数据；接收至少一个解析数据输出请求，所述解析数据输出请求携带数据输出条件；根据所述数据输出条件对应的输出方式，输出所述第一解析数据；其中，基于Spark数据处理框架对多个所述xml节点进行解析，得到第一解析数据，具体包括：判断多个所述初始属性中是否含有嵌套属性；若是，将每个所述嵌套属性拆分为多个子属性，并将每个所述嵌套属性以外的初始属性作为子属性；若否，将每个所述初始属性作为子属性；基于Spark数据处理框架，将第i个所述xml节点映射为DataFrame的第i行，并将第j个所述子属性映射为DataFrame的第j列；其中，i∈[1,n]，j∈[1,m]，n和m均为大于1的正整数；基于Spark数据处理框架，将第i个所述预处理后的xml子文件中第j个所述子属性对应的文件内容转换成预设的字段结构；所述预设的字段结构包括第i行第j列与文件内容的对应关系；将所述预设的字段结构对应存储于DataFrame的第i行第j列，得到第二解析数据；所述第二解析数据为DataFrame数据；基于df.as[ds]函数，将所述第二解析数据转化为第三解析数据；所述第二解析数据为DataFrame数据，所述第三解析数据为DataSet数据；基于ds.write.modeSaveMode.Overwrite.savetablename函数，将所述第三解析数据转化为所述第一解析数据；所述第一解析数据为Hive表格数据。

如需购买、转让、实施、许可或投资类似专利技术，可联系本专利的申请人或专利权人企知道科技有限公司，其通讯地址为：518000 广东省深圳市南山区西丽街道西丽社区留仙大道创智云城1标段1栋D座2201；或者联系龙图腾网官方客服，联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

请提出您的宝贵建议，有机会获取IP积分或其他奖励

企知道科技有限公司臧智涛获国家专利权

热门推荐

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务