云南电网有限责任公司信息中心徐敏获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉云南电网有限责任公司信息中心申请的专利一种基于碎片化文档的元数据识别方法、存储介质及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115168589B 。
龙图腾网通过国家知识产权局官网在2025-08-26发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210920763.2,技术领域涉及:G06F16/353;该发明授权一种基于碎片化文档的元数据识别方法、存储介质及系统是由徐敏;张建文;李辉;唐力;张冠豫设计研发完成,并于2022-08-02向国家知识产权局提交的专利申请。
本一种基于碎片化文档的元数据识别方法、存储介质及系统在说明书摘要公布了:本发明提供一种基于碎片化文档的元数据识别方法、存储介质及系统,该方法包括如下步骤:对预设文档进行读取,得到包含预设文档中的全部元素的元素体迭代器;对元素体迭代器进行元素遍历,识别出其所包含的全部元素当中的标题和表格,采用标题栈的数据结构来构建标题与表格之间的映射关系;基于预设的元模型对构建了映射关系的标题和表格进行关系元数据识别;识别表和字段的关系元数据,据此生成元数据更新脚本以更新元数据信息,如此则更新后的元数据信息包含了标题和表格之间的关系,使之完善。
本发明授权一种基于碎片化文档的元数据识别方法、存储介质及系统在权利要求书中公布了:1.一种基于碎片化文档的元数据识别方法,其特征是,包括如下步骤: A.对预设文档进行读取,得到包含所述预设文档中的全部元素的元素体迭代器; B.对所述元素体迭代器进行元素遍历,识别出其所包含的全部元素当中的标题和表格,采用标题栈的数据结构来构建标题与表格之间的映射关系,具体包括如下步骤B1~B8: ——B1.建立当前标题并将其大纲级别初始化为0; ——B2.初始化标题栈; ——B3.对所述元素体迭代器进行元素遍历访问,若访问到元素则进入下述步骤B4,若没有访问到元素则结束; ——B4.判断当前元素实例是否为表格,若当前元素实例是表格则构建当前标题与表格之间的映射关系,然后令当前标题入标题栈,再返回上述步骤B3,若当前元素实例不是表格则进入下述步骤B5; ——B5.判断当前元素实例是否为标题,若当前元素实例是标题则进入下述步骤B6,若当前元素实例不是标题则返回上述步骤B3; ——B6.获取当前元素的大纲级别,判断当前元素的大纲级别是否大于当前标题的大纲级别,若当前元素的大纲级别大于当前标题的大纲级别,则进入下述步骤B7,若当前元素的大纲级别不大于当前标题的大纲级别,则进入下述步骤B8; ——B7.令当前标题入标题栈,并以当前元素作为新的当前标题,然后返回上述步骤B3; ——B8.令标题栈中的栈顶标题出栈,然后判断当前元素的大纲级别是否大于新出栈标题的大纲级别,若当前元素的大纲级别大于新出栈标题的大纲级别,则令出栈后的标题重新入标题栈,再以当前元素作为新的当前标题,然后返回上述步骤B3,若当前元素的大纲级别不大于新出栈标题的大纲级别,则重复执行步骤B8; C.基于预设的元模型对构建了映射关系的标题和表格进行关系元数据识别,具体包括如下步骤C1~C6: ——C1.遍历访问标题栈中的各个标题,根据遍历访问到的标题获取与其构建了映射关系的表格; ——C2.对获取到的表格,提取其第一行表格内容作为标题列表; ——C3.对每一个标题列表,计算其与预设的字段元模型中的字段元数据之间的文本相似度,获取文本相似度达到预设程度的标题列表通过数量,计算该标题列表通过数量占标题列表总数的比例从而生成表格置信度,若表格置信度大于预设阈值则将当前的表格判断为元数据表格,若置信度不大于预设阈值则将当前的表格判断为非元数据表格; ——C4.根据元数据表格的各个标题列表得到元数据表格的字段元数据; ——C5.获取与所述元数据表格构建了映射关系的标题,采用正则表达式将该标题解析成表元数据; ——C6.将所述步骤C5中得到的表元数据和所述步骤C4中得到的字段元数据合并,生成表和字段的关系元数据; D.识别表和字段的关系元数据,据此生成元数据更新脚本以更新元数据信息。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人云南电网有限责任公司信息中心,其通讯地址为:650214 云南省昆明市官渡区云大西路105号云电科技园;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。