南京市智慧医疗投资运营服务有限公司王步宜获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉南京市智慧医疗投资运营服务有限公司申请的专利基于OCR和LLM的费用明细清单识别方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN118747899B 。
龙图腾网通过国家知识产权局官网在2026-01-30发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202410853316.9,技术领域涉及:G06V30/30;该发明授权基于OCR和LLM的费用明细清单识别方法及系统是由王步宜;苗伟;常博;孙召敏;马杰;邢鑫;朱洁;沈义晖设计研发完成,并于2024-06-28向国家知识产权局提交的专利申请。
本基于OCR和LLM的费用明细清单识别方法及系统在说明书摘要公布了:本发明涉及一种基于OCR和LLM的费用明细清单识别方法和系统,包括采集待处理图像,检测待处理图像的费用明细区域并截取第一子图;采用OCR识别第一子图获取第一集合,基于第一集合构建仿射变换矩阵进行图片水平校正,并获取水平校正后的第二子图;采用OCR识别第二子图获取第二集合,基于第二集合对第二子图中的文本行进行行列校正,校正后的文本行信息构成第三集合;基于第三集合构建prompt,并结合大型语言模型获取费用明细识别信息。本发明通过多阶段的图像处理和OCR文字识别优化,显著提升复杂条件下文本识别精度;引入大语言模型,赋能空间位置关系理解能力,实现了从文本数据到特定信息提取的智能化飞跃,减少了人工干预,提高了效率。
本发明授权基于OCR和LLM的费用明细清单识别方法及系统在权利要求书中公布了:1.一种基于OCR和LLM的费用明细清单识别方法,其特征在于:包括, 采集待处理图像,检测待处理图像的费用明细区域并截取第一子图; 具体为利用目标检测模型检测待处理图像中的费用明细区域,根据检测结果中的边界框对待处理图像进行截取,生成只有费用明细区域的第一子图; 采用OCR识别所述第一子图获取第一集合,基于所述第一集合构建仿射变换矩阵进行图片水平校正,并获取水平校正后的第二子图; 采用OCR识别所述第二子图获取第二集合,基于所述第二集合对第二子图中的文本行进行行列校正,校正后的文本行信息构成第三集合; 基于所述第三集合构建prompt,并利用大型语言模型获取费用明细识别信息; 所述采用OCR识别所述第一子图获取第一集合包括: 利用OCR识别对第一子图进行文本识别,获得文本行最小外接矩形的位置信息和文本内容识别结果,将所述文本行的最小外接矩形的位置信息和文本内容存储至第一集合中; 所述采用OCR识别所述第二子图获取第二集合包括: 利用OCR识别对第二子图进行文本识别,获得文本行最小外接矩形的位置信息和文本内容识别结果,将所述文本行的最小外接矩形的位置信息和文本内容存储至第二集合中; 所述基于第一集合构建仿射变换矩阵包括, 选出第一集合中最长的文本行,根据最长文本行的最小外接矩形4个顶点坐标信息来计算最长文本行的倾斜角度,以该倾斜角度作为第一子图的倾斜角度,以第一子图的中心点作为旋转中心,倾斜角度为旋转角度,构建仿射变换矩阵; 倾斜角度计算公式表示为:; 仿射变换矩阵表示为: ; 其中,表示倾斜角度,表示最长文本行的最小外接矩形的左上角顶点坐标和右上角顶点的坐标;表示仿射变换矩阵,为第一子图的中心点坐标; 所述进行图片水平校正,并获取水平校正后的第二子图包括, 使用仿射变换矩阵对第一子图进行仿射变换,获取水平校正后的备选子图;判断备选子图是否为正向,若备选子图为正向,则将备选子图作为第二子图;若备选子图为倒向,则将备选子图围绕图像中心点旋转180°后获得第二子图; 所述仿射变换表示为: ; 其中,为仿射变换矩阵,为第一子图中第i个像素点的坐标,为第i个像素点经过仿射变换后的点坐标; 对第二子图中的文本行进行行校正包括, S31:对第二集合中的文本行进行遍历,针对遍历执行到的每一个文本行,根据文本行的最小外接矩形4个顶点坐标信息计算文本行的中心点坐标、文本行的高度、文本行的倾斜角度,并构建文本行的行域; S32:计算第二集合中所有文本行的中心点坐标,筛选出第二集合中文本行中心点坐标位于行域范围内的所有文本行;并将位于行域范围内所有文本行的中心点坐标的纵坐标更改为文本行的纵坐标,再将中心点纵坐标相同的文本行按照文本行中心点的横坐标从小到大的顺序进行排序,将更改后的文本行中心点坐标、文本行最小外接矩形4个顶点坐标和OCR识别的字符信息记录在第三集合中; S33:将第三集合中的文本行在第二集合中移除; S34:重复步骤S31~步骤S33,直至第二集合中所有的文本行都移至第三集合中; 所述构建文本行的行域包括:连接文本行的最小外接矩形的左上角顶点和右上角顶点,将文本行的最小外接矩形的左上角顶点和右上角顶点所在直线记为,连接文本行最小外接矩形的右下角顶点和左下角顶点,将文本行的最小外接矩形的左下角顶点和右下角顶点所在直线记为,直线、直线与第二子图左右两边界所围成的区域作为文本行的行域; 所述文本行的中心点坐标计算公式表示为: ; 所述文本行的高度计算公式表示为:; 所述文本行倾斜角度的计算公式表示为:; 其中,,为第二集合的文本行数量,,,表示第二集合中第个文本行的最小外接矩形左上、右上、右下的顶点坐标,表示第个文本行的中心点坐标; 对第二子图中的文本行进行列校正包括, S35:对第三集合中的文本行进行遍历,针对遍历执行到的每一个文本行,其中,为第三集合的文本行数量,根据文本行的最小外接矩形4个顶点坐标信息获取文本行的中心点坐标并构建列域; S36:筛选出第三集合中文本行中心点位于列域范围内的所有文本行,将位于列域范围内的所有文本行中心点的横坐标更改为文本行中心点的横坐标,并标记被修改的文本行; S37:重复S35~S36的过程,跳过S36中标记文本行,直至完成对第三集合的遍历处理; 所述构建列域包括:连接文本行的最小外接矩形的左上角顶点和左下角顶点,将文本行的最小外接矩形的左上角顶点和左下角顶点所在直线记为,连接文本行最小外接矩形的右上角顶点和右下角顶点,将文本行的最小外接矩形的右上角顶点和右下角顶点所在直线记为,直线、直线与第二子图上下两边界所围成的区域作为文本行的列域; 所述基于所述第三集合构建prompt,并利用大型语言模型获取费用明细识别信息包括, 基于所述第三集合中的文本行中心点坐标和OCR识别的字符信息构建prompt,包括设定任务描述,提供与任务相关的上下文信息或展示,设定输入格式,设置占位符,设定输出格式要求,将构建好的prompt输入大型语言模型中进行上下文理解和位置关系分析,提取费用明细识别信息,输出结果。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人南京市智慧医疗投资运营服务有限公司,其通讯地址为:210049 江苏省南京市栖霞区紫东国际创意园B4-1栋601室;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励