杭州信公小安信息科技有限公司黄智获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉杭州信公小安信息科技有限公司申请的专利一种PDF中表格的提取解析方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119759355B 。
龙图腾网通过国家知识产权局官网在2025-09-02发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411683420.4,技术领域涉及:G06F8/41;该发明授权一种PDF中表格的提取解析方法是由黄智;安若;王李李;李强;雷威;冯源设计研发完成,并于2024-11-22向国家知识产权局提交的专利申请。
本一种PDF中表格的提取解析方法在说明书摘要公布了:本发明公开了一种PDF中表格的提取解析方法,所述方法包括:读取PDF文件,将PDF中的指令读取到内存中;将指令中的内容转化为基本元素;对基本元素进行多轮聚合操作,得到聚合的对象;对聚合的对象计算嵌套关系,并解析聚合的对象的类型,确定类型为表格的对象;对类型为表格的对象进行一次表格解析,得到表格的所有单元格。本发明实现了高准确度的PDF表格提取和解析。
本发明授权一种PDF中表格的提取解析方法在权利要求书中公布了:1.一种PDF中表格的提取解析方法,其特征在于,所述方法包括: 读取PDF文件,将PDF中的指令读取到内存中; 将指令中的内容转化为基本元素; 对基本元素进行多轮聚合操作,得到聚合的对象; 对聚合的对象计算嵌套关系,并解析聚合的对象的类型,确定类型为表格的对象; 对类型为表格的对象进行一次表格解析,得到表格的所有单元格; 对聚合的对象计算嵌套关系,并解析聚合的对象的类型,确定类型为表格的对象,并将该对象放到预设的位置上的方法包括: 两两计算region之间的嵌套关系,得到一个二维的数组,然后再对这个数组进行深度优先搜索,得到所有region之间的嵌套关系; 对region进行一次类型判断,具体为: 取出region中所有线段的端点,组成一个集合,然后对这个集合求凸包; 对求出的凸包通过形状描述算法和近似矩形算法进行形状描述,若是近似矩形且整个凸包内部都被规则的矩形完全填充则认为是一个表格,否则认为是一个图表; 所述形状描述算法的方法包括: A1:定义三个指针p1,p2,p3,在初始状态下p1为凸包极点所在位置,p2为p1逆时针方向的下一个点,p3为p2逆时针方向的下一个点; A2:计算向量p1p2和p2p3的cosine相似度; A3:若cosine相似度没有达到第一预设阈值,则将p2指向p3,p3指向p3逆时针方向下一个点,重复步骤A2; A4:若cosine相似度达到第一预设阈值,则认为找到了一个90度转角,同时把p1指向p2,p2指向p3,p3指向逆时针方向的下一个点,重复步骤A2; A5:重复步骤A2,直到遍历完整个凸包,记录遍历过程p1变化次数,p1变化次数即为凸包的90度角个数,当凸包的90度角个数为4个,判断region为矩形; 所述近似矩形算法包括: B1:以凸包的一条边为底边,设该边的端点为A和B,确定所有的点中在AB方向上投影的值最大的和最小的两个点,再去确定距离AB最远的点,得到了3个点和一条线,即得到一个矩形; B2:遍历凸包的每一条边,最后找到最小矩形; B3:得到最小矩形,然后计算最小矩形与凸包的面积的差,若最小矩形与凸包的面积的差小于第二预设阈值,则该凸包近似为一个矩形。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人杭州信公小安信息科技有限公司,其通讯地址为:311199 浙江省杭州市余杭区南苑街道余之城1幢612室;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。