Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 北京鸿鹄元数科技有限公司胡继云获国家专利权

北京鸿鹄元数科技有限公司胡继云获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉北京鸿鹄元数科技有限公司申请的专利基于多模态文档信息配置提取的方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN118865419B

龙图腾网通过国家知识产权局官网在2025-06-10发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411056081.7,技术领域涉及:G06V30/41;该发明授权基于多模态文档信息配置提取的方法及系统是由胡继云;陈丽萍;吕亚东设计研发完成,并于2024-08-02向国家知识产权局提交的专利申请。

基于多模态文档信息配置提取的方法及系统在说明书摘要公布了:本发明提供基于多模态文档信息配置提取的方法及系统,方法包括:对文档初步分析,识别文件类型与格式,文档预处理;根据文档类型与内容分布选择最适配的识别模式,配置相应识别参数;针对不同类型识别结果,采用定制化提取策略和识别提取规则,按类别设定提取要素;确定每项识别提取规则对应的文档页码位置,精确提取所需信息;将提取结果回调;记录保存识别提取规则及识别提取配置。本发明在多种维度上精确定义提取范围,提高提取过程精准性和适应性;设计处理正则表达式匹配结果重叠问题算法,提高高亮处理准确性和文档可读性;提供图形用户界面,允许用户直观地预览识别结果及高亮效果,支持即时反馈和调整,提升了用户操作的直观性和便捷性。

本发明授权基于多模态文档信息配置提取的方法及系统在权利要求书中公布了:1.基于多模态文档信息配置提取的方法,其特征在于,包括以下步骤:S1、对输入文档进行初步分析,识别文件类型与格式,对文档进行预处理,所述预处理包括:格式识别、转换,分辨率检测与优化调整;S2、根据文档类型与内容分布,选择最适配的识别模式,并配置相应的识别参数;其中,所述识别模式包括:PDF文字直接提取、OCR识别或表格识别;识别过程采用缓存机制,以文件哈希值为键,识别结果为值,避免多次配置识别等待时间过长;所述选择最适配的识别模式,并配置相应的识别参数包括:如选择PDF文字直接提取的识别模式,则从PDF文档中直接提取文本内容;如选择OCR识别的识别模式,则保持原有结构和大小;如选择表格识别的识别模式,则通过高级版面分析,准确识别表格结构,包括行列划分、合并单元格处理,将表格数据转换为结构化数据;S3、针对不同类型识别模式的识别结果,采用定制化提取策略以及识别提取规则,按类别设定提取要素:对于PDF文字直接提取的识别结果,通过构建正则表达式匹配提取;对于OCR识别的识别结果,结合位置信息,依据坐标范围精准获取文字;对于表格识别的识别结果,通过选定单元格完成信息提取;S4、确定每项识别提取规则对应的文档页码位置,精确提取所需信息;将提取结果以JSON格式响应或者通过自定义回调地址进行回调;S5、记录保存所述识别提取规则及识别提取配置,支持通过多种接口使用已完成的识别提取配置,集成多种文件上传方式、灵活的配置管理和高效的缓存机制,实现文档信息的智能化提取与处理;所述S3步骤的正则表达式匹配提取的过程以图形用户界面的型式展现,所述正则表达式匹配提取中的关键词重叠处理及高亮显示的方法包括以下步骤:S31、遍历所有正则表达式配置,根据正则查找所有文字匹配项,并获取到匹配文字在原文中的索引,记为匹配项数组;S32、对匹配项数组按起始索引排序,记录第一个匹配项为变量current;S33、遍历数组剩余元素,对每个元素next,检查该元素next起始索引是否小于current结束索引,判断是否有重叠;若没有重叠,则将next设为current,继续下一次循环;若有重叠,则按照重叠的不同情况分别执行以下操作:如next与current尾部重叠,则剪除current中next的部分,next的重叠权重加上current的权重,并更新current为next;如next完全在current之中,则通过next将current分为三个部分,三个部分中各个部分更新自身的起始索引,同时next的重叠权重加上current的权重,并将最后一个部分插入数组中,然后重新执行S32步骤;如next前段和current后段重叠,则拆分出重叠部分为newItem,newItem的重叠权重为next和current的叠加,更新各部分起始索引,然后执行S32步骤;S34、返回最终匹配结果无重叠的数组;S35、移除文本中原有的所有高亮,根据处理后的匹配信息,逐个替换文本,根据重叠权重添加对应级别的高亮HTML标签,并更新DOM元素的innerHTML,实现高亮显示。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京鸿鹄元数科技有限公司,其通讯地址为:100192 北京市海淀区黑泉路8号1幢5层101;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。