上海商涌科技有限公司罗慧获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉上海商涌科技有限公司申请的专利一种对体检报告进行OCR识别以及结构化的方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115862033B 。
龙图腾网通过国家知识产权局官网在2026-02-17发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211421466.X,技术领域涉及:G06V30/19;该发明授权一种对体检报告进行OCR识别以及结构化的方法及系统是由罗慧;颜世伟;王竞;赵为汉;梁浩然;何方华设计研发完成,并于2022-11-14向国家知识产权局提交的专利申请。
本一种对体检报告进行OCR识别以及结构化的方法及系统在说明书摘要公布了:本发明涉及信息处理技术领域,提供一种对体检报告进行OCR识别以及结构化的方法及系统,包括:将获取的体检报告材料影像件生成不同方向的样本数据,利用样本数据进行方向检测模型训练,并对样本数据进行方向检测并旋转方向使其达到最优解,对样本数据进行OCR文字识别处理,得到文字列表以及对应文字位置坐标信息;训练图像分拣AI模型,利用图像分拣AI模型得到样本数据类型‑体检报告;根据结构化多补偿模型机制进行体检报告结构化处理并输出结构化数据。本发明能够在体检报告影像件无标准化模板、类型众多情况下,对项目和结果进行标准化并输出,相对于传统的人工录入方法,极大的减少人工成本,且提高了处理效率。
本发明授权一种对体检报告进行OCR识别以及结构化的方法及系统在权利要求书中公布了:1.一种对体检报告进行OCR识别以及结构化的方法,其特征在于,所述对体检报告进行OCR识别以及结构化的方法包括: 获取体检报告材料影像件; 将所述体检报告材料影像件生成不同方向的样本数据,利用所述样本数据进行方向检测模型训练; 利用所述方向检测模型对所述样本数据进行方向检测并旋转方向使其达到最优解,并对所述样本数据进行OCR文字识别处理,得到文字列表以及对应文字位置坐标信息; 训练图像分拣模型,并利用所述图像分拣模型得到样本数据类型‑体检报告;利用表格模型根据所述文字列表以及对应文字位置坐标信息,对所述样本数据类型‑体检报告进行结构化处理,输出为统一的表格形式;其中,所述利用表格模型根据所述文字列表以及对应文字位置坐标信息,对所述样本数据类型‑体检报告进行结构化处理,还包括:对所述表格模型进行机器学习训练,具体步骤包括: S1、对文字识别列表resList结合文字位置坐标信息rect对识别结果进行从上到下从左到右重新排序,首先确定阈值大小:判断实体坐标y0距离下一实体坐标y1的距离,求平均值,该平均值即为阈值,公式如下: ; 其中, 指的是第x个实体,表示实体总数,表示第x个实体的Y轴坐标信息,表示第x+1个实体到第x个实体的Y轴距离; 确定阈值后,根据阈值来判断前后实体是否进行调整,确定每行中每个字段的前后位置以及list包含多少行数据;最终获得按照位置信息排序的实体列表resNewList; S2、确定参考行以及表头行位置,确定参考行目的是在下一步中以参考行为依据进行补列,确定表头行目的是对一个大表按照项目进行拆分,拆成若干个小表,每个小表即为一个检查项目;其中表头行的定义依据:体检报告表头包含项目名称indexName、结果resultValue、单位unit、参考范围textRef四个字段,对resNewList依次遍历每行数据确认表头字段所在位置以及确定表头行; S3、以表头行为依据对表格中所有的行进行补列操作,对拆分后的每个小表以参考行为依据遍历每行数据将该行每个实体的x1、y1坐标位置与参考行x、y轴坐标位置做减法,若结果在阈值范围外则针对参考行相应坐标位置补列x,y1; S4、根据预处理中的表格检测模型得出tableFlag;若该影像件为全表则需要根据表格线判断是否需要进行合并,若两行实体在上下表格线之间则继续判断两行实体的中线距离是否大于阈值; S5、若在阈值范围内则,针对上下两行相同位置进行合并,合并遵循首尾相连原则; S6、最终得到一个x行y列的补齐所有空白单元格的且已经完成合并的全新表格,并按照html中tdtr的形式输出; 根据体检报告的项目逻辑按照所述统一的表格形式输出结构化数据。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人上海商涌科技有限公司,其通讯地址为:201203 上海市浦东新区自由贸易试验区金科路2889弄3号2层01单元;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励