华南理工大学陈春华获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉华南理工大学申请的专利基于字符特征模版匹配提取PDF检测报告数据的方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119942573B 。
龙图腾网通过国家知识产权局官网在2025-08-26发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510024400.4,技术领域涉及:G06V30/412;该发明授权基于字符特征模版匹配提取PDF检测报告数据的方法是由陈春华;赖柏瀛;詹志辉;孙昌隆;陈晓冬;黄金样设计研发完成,并于2025-01-07向国家知识产权局提交的专利申请。
本基于字符特征模版匹配提取PDF检测报告数据的方法在说明书摘要公布了:本发明公开了基于字符特征模版匹配提取PDF检测报告数据的方法,所述方法通过将键值对的定位信息、满足的数据类型、表格的定位通过编码的形式转成计算机能够解读的布局字符特征模板,表格字符特征模板对表格提取提供辅助作用,并通过三种方式还原不同情况下的表格。本发明特别适用于生化环材领域的包含半结构化数据的原生PDF检测报告,该方法能够提取PDF检测报告中指定的感兴趣数据,实现结构化存储,高效并准确地掌握检测物质的相关信息,且便于后续数据分析。
本发明授权基于字符特征模版匹配提取PDF检测报告数据的方法在权利要求书中公布了:1.基于字符特征模版匹配提取PDF检测报告数据的方法,其特征在于,包括以下步骤: S1、将同一类的原生PDF检测报告转化为字符txt文本; S2、为该类PDF检测报告配置相应的特征模板以及表格经验分布配置文件,所述特征模板包含布局字符特征模板和表格字符特征模板; S3、每个原生PDF检测报告对应的字符txt文本与外围的布局字符特征模版进行逐行字符匹配:若不符合,则不进行信息提取;若符合,则提取键值对数据,转到步骤S4; S4、定位该原生PDF检测报告的表头位置和表结束位置,返回表格的上、下界位置,以及属于表格中表体的txt内容,为内嵌的表格字符特征模板还原表格时做铺垫; S5、判断该原生PDF检测报告的表格类型是否属于表格线齐全规整型表格: 若是,则利用PDF内表格线的检测还原方法,还原所有PDF里线条,猜测能够构成表格的线条,形成可能多个表格;利用表格的上、下界位置来定位目标表格,该表格的所有线条相交形成交点,每四个相邻交点形成单元格,根据单元格的位置,从PDF里查询属于每个单元格里的字符,最终还原表格得到每行唯一的合理解; 若否,则跳转到步骤S6; S6、继续判断表格类型是否属于表体对齐表头的类型: 若是,则提取所有PDF内所有字符块,每个字符串附带有其外接矩形框的位置和大小参数;根据表格的上、下界位置筛选出属于目标表格的字符块集合并排序;将字符集合按照行聚类,聚成若干行;遍历所有字符块集合所有字符块,利用行内利用字符块的位置与表头位置做水平投影交集,交集大于一定阈值则认定该字符块属于该表头的值;当所有操作完成时,表格二维逻辑结构还原,得到每行唯一的合理解; 若否,则跳转到步骤S7; S7、利用表体的txt内容,对于表体内的每一行,按照空格进行字符的分割:假设分割成m份,对于表头个数,加上每个表头对应的值最多能含有多少空格数量为n个,m份值按照相对顺序不变的方式组合到n个空位里,所有可能的分布情况有种,而对于每一种表格值的分布情况,对比表头与其分配到的值的数据类型是否匹配,如果全匹配则视为合理解;对每一行做处理还原表格逻辑结构; S8、对于每一行合理解,首先根据与对应的表头类型的匹配情况以及表格经验分布配置文件设置初始准确率,并更新行准确率;返回每行所有合理解中准确率最高的合理解以及其准确率,其余解作为备选次优解也作为输出。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人华南理工大学,其通讯地址为:510000 广东省广州市天河区五山路381号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。