图观(天津)数字科技有限公司李元获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉图观(天津)数字科技有限公司申请的专利一种文档信息抽取方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119964170B 。
龙图腾网通过国家知识产权局官网在2025-07-22发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510430398.0,技术领域涉及:G06V30/148;该发明授权一种文档信息抽取方法是由李元;张安华;王维;黄烨楠;霍艳帅;宗严;马春悦设计研发完成,并于2025-04-08向国家知识产权局提交的专利申请。
本一种文档信息抽取方法在说明书摘要公布了:本发明提供了一种文档信息抽取方法,包括:获取待解析文档;使用文档结构解析模型解析文档中不同的元素,给出元素的识别标框;对于解析出的页眉、页脚、二维码、插图、商标部分,将其标框范围内的图像处理成空白图像;对于解析出的印章部分,如果印章和印刷文字有重合,使用算法将印章部分去除,保留印章盖住的文字部分,将去除印章后的文字部分替换到原始图像的印章位置;提取处理后的文档图像中的印刷体、手写体,识别文档图像中的印刷体文字、手写体文字;结合原始表格、印刷体文字、手写体文字在文档图像中的位置,将识别出的文字拼装在一起;基于生成式语言大模型,设计提示词,生成所需提取的结构化数据,并以固定格式输出。
本发明授权一种文档信息抽取方法在权利要求书中公布了:1.一种文档信息抽取方法,其特征在于:包括如下步骤: 步骤1:获取待解析文档,构建文档结构解析模型; 步骤2:使用文档结构解析模型解析文档中不同的元素,包括页眉、页脚、二维码、印刷体文字、手写体文字、表格、插图、商标、印章,给出各元素的识别标框; 步骤3:对于解析出的页眉、页脚、二维码、插图、商标部分,将其标框范围内的图像处理成空白图像; 步骤4:对于解析出的印章部分,如果印章和印刷体文字有重合,使用印章去除算法将印章部分去除,保留印章盖住的文字部分,将去除印章后的文字部分替换到原始图像的印章位置; 步骤5:提取处理后的文档图像中的印刷体文字,并识别文档图像中的印刷体文字; 步骤6:提取处理后的文档图像中的手写体文字,并识别文档图像中的手写体文字; 步骤7:将从原始表格、印刷体文字、手写体文字中识别出的文字,根据其原始内容的位置拼装在一起; 步骤8:收集原始待解析文档文本数据,设计文本信息提取提示词,根据原始待解析文档文本,标注需提取的字段以及字段的值,将字段的值用设定格式表示,将提示词、原始待解析文档文本、需提取的字段、设定格式的字段的值组装,形成数据集,基于开源生成式语言大模型,将数据集以及步骤7得到的数据代入大模型中,大模型解析得出需要抽取的信息,直接以设定的格式输出。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人图观(天津)数字科技有限公司,其通讯地址为:300480 天津市滨海新区中新天津生态城动漫中路482号创智大厦第【2】层办公室【253】房间;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。