北京仁和汇智信息技术有限公司尹真获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉北京仁和汇智信息技术有限公司申请的专利PDF文档的多维度比对方法、装置及电子设备获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119514518B 。
龙图腾网通过国家知识产权局官网在2026-04-07发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510090485.6,技术领域涉及:G06F40/194;该发明授权PDF文档的多维度比对方法、装置及电子设备是由尹真;王盛华;安文康;李艳红;尤科冉;徐鼎藩;何海军设计研发完成,并于2025-01-21向国家知识产权局提交的专利申请。
本PDF文档的多维度比对方法、装置及电子设备在说明书摘要公布了:本申请提供了一种PDF文档的多维度比对方法、装置及电子设备,方法包括:针对待比对的第一PDF文档和第二PDF文档,均划分为多个对象区域;对多个对象区域进行解析,得到待比对的对象内容;针对第一PDF文档中的每个第一对象内容,确定第一对象内容对应于第二PDF文档中的待比对的第二对象内容;将第一对象内容和第二对象内容进行比对,确定差异信息;在第一PDF文档和第二PDF文档中,同步标记差异信息的差异类型和索引信息。本申请能够全面、准确、自动化地比对两个PDF文档中文本、图像、表格、公式多个维度内容的差异并标注,提高文档处理的精确性和效率,满足复杂应用场景的需求。
本发明授权PDF文档的多维度比对方法、装置及电子设备在权利要求书中公布了:1.一种PDF文档的多维度比对方法,其特征在于,所述方法包括: 针对待比对的第一PDF文档和第二PDF文档,均划分为多个对象区域;所述多个对象区域至少包括以下之一:文本区域、图像区域、表格区域以及数学公式区域; 对多个对象区域进行解析,得到待比对的对象内容,包括:对每个划分的对象区域,基于对象区域在页面上的坐标信息,提取对象区域内的具体内容;文本区域通过文本提取和合并,得到的是待比对的文本内容;表格区域解析出的是待比对的表格;图像区域解析出的是待比对的图像;公式区域解析出的是待比对的公式; 采用经过微调的布局语言模型LayoutLM对PDF文档进行初步的版面分析和切分; 根据提取的字符的字号大小及其相对于基准线的上下浮动距离,判别字符是否为上下标;通过分析文本的粗细度和倾斜角度来判别文本是否为粗体或斜体; 对于分布在不同栏的相邻文本区域,依据预设的规则和自然语言处理技术,判断这些区域是否属于同一段落;如果是,则对这些文字区域块进行区域矫正和合并;对于跨页的相邻文字区域块,同样采用规则及自然语言技术进行分析,判断其是否属于同一段落或句子,并对其进行合并处理; 针对第一PDF文档中的每个第一对象内容,确定所述第一对象内容对应于第二PDF文档中的待比对的第二对象内容,包括:按照所述第一对象内容在所述第一PDF文档中的第一位置信息,确定所述第二PDF文档中与所述第一位置信息对应位置的目标对象内容;以所述目标对象内容为基准,向前向后分别扩展指定个相同对象类型的区域内容;计算所述第一对象内容与多个区域内容的相似度,将最高相似度对应的区域内容,作为所述第一对象内容对应于第二PDF文档中的待比对的第二对象内容; 将所述第一对象内容和所述第二对象内容进行比对,确定差异信息; 在所述第一PDF文档和所述第二PDF文档中,同步标记所述差异信息的差异类型和索引信息;记录每个差异片段在对应比对文本中的索引位置;通过这些索引位置,能够精确定位到原始PDF文档中文本块或图像中的具体差异区域,并在对比PDF文档中找到对应的差异区域;对于每一个识别出的差异区域,通过双向映射,可以明确地显示两个文档或图像中相同位置的差异;此外,还将差异区域在两份文档或图像中进行同步定位和标记;当用户查看一个文档或图像中的某个差异区域时,会自动定位并高亮显示另一份文档或图像中的对应区域; 将所述第一对象内容和所述第二对象内容进行比对,确定差异信息的步骤,包括: 针对待比对的两个文本内容,执行以下文本内容差异分析步骤:将两个文本内容按照字符单元进行分割;逐一比对两个文本内容的字符单元,计算两个文本内容之间的最小编辑距离;所述最小编辑距离以将一个文本转换为另一个文本所需的最少编辑操作次数进行表征;所述操作包括插入字符、删除字符以及替换字符;比对完所有字符单元后,得到从一个文本内容到另一个文本内容的编辑操作序列;根据编辑操作序列确定两个文本内容的差异信息,包括;如果目标比对片段的编辑操作类型为插入字符,确定所述目标对比片段的差异类型为插入片段类型;并将多个连续的插入片段类型的比对片段进行合并,确定第一差异区域;如果目标比对片段的编辑操作类型为删除字符,确定所述目标对比片段的差异类型为删除片段类型;并将多个连续的删除片段类型的比对片段进行合并,确定第二差异区域;如果目标比对片段的差异类型为相同片段类型,对所述目标比对片段的文本的字体、字号和字形进行比对,并为所述目标比对片段标记相同片段类型; 针对待比对的两个图像,将两个图像分别进行尺寸、分辨率归一化处理;遍历两个图像中在同一位置的每个像素;针对每个像素,分别比对红色、绿色、蓝色和透明度四个通道的值;任意一个通道的值存在差异,则将该像素标记为不同;遍历完所有像素后,统计两个图像之间的差异像素个数;基于所述差异像素个数,确定两个图像的相似度;合并连续的差异像素,确定差异区域; 针对待比对的两个公式,获取两个公式对应的公式字符信息;根据所述公式字符信息的Y坐标进行对齐,以使两个公式字符信息的垂直顺序一致;对两个公式字符信息按X坐标排序,将公式字符组合成对应的公式文本字符串;对所述公式文本字符串执行所述文本内容差异分析步骤,以确定差异区域和差异类型; 针对待比对的两个表格,获取两个表格中的文本内容;将文本内容按照行和或列的顺序进行拼接,得到拼接后的文本字符串;对所述文本字符串执行所述文本内容差异分析步骤,以确定差异区域和差异类型。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京仁和汇智信息技术有限公司,其通讯地址为:102200 北京市昌平区回龙观镇朱辛庄北农路2号主楼D座731室;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励