恭喜北京易道博识科技有限公司沈达伟获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜北京易道博识科技有限公司申请的专利一种OCR训练样本生成方法、装置及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114419632B 。
龙图腾网通过国家知识产权局官网在2025-06-24发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202111646988.5,技术领域涉及:G06V30/40;该发明授权一种OCR训练样本生成方法、装置及系统是由沈达伟;王勇;朱军民;康铁钢设计研发完成,并于2021-12-29向国家知识产权局提交的专利申请。
本一种OCR训练样本生成方法、装置及系统在说明书摘要公布了:本发明公开了一种OCR训练样本生成方法、装置及系统,涉及计算机视觉领域。该方法包括:文字轮廓提取步骤,基于原始图像提取所有文字轮廓,结合抹除区域坐标确定抹除区域掩膜,并得到修复区域掩膜;图像修复填充步骤,根据修复区域掩膜以及修复区域周围的像素信息进行图像修复填充,得到抹除文字后的背景模板;随机文本生成步骤,在每个生成区域内生成随机文本,由此得到一张新的样本图片和与之对应的标注信息文件。本发明结合文字轮廓提取算法和图像修复等技术,充分利用原图片背景信息,生成高质量训练图片,同时生成与图片对应的标注文件包含文字内容、位置信息,免去繁冗耗力的标注工作,可直接用于OCR模型训练。
本发明授权一种OCR训练样本生成方法、装置及系统在权利要求书中公布了:1.一种OCR训练样本生成方法,其特征在于,输入信息为原始图像以及抹除区域坐标,所述方法包括: 文字轮廓提取步骤,基于原始图像提取所有文字轮廓,结合抹除区域坐标确定抹除区域掩膜,并得到修复区域掩膜: 将输入的原始图像转换为单通道灰度图,再将其自适应二值化,得到所有文字轮廓掩膜,文字区域值为1,背景区域值为0; 根据抹除区域坐标,得到抹除区域掩膜,抹除区域值为1,其他区域值为0; 将所有文字轮廓掩膜与抹除区域掩膜对应位置像素相乘,得到抹除区域文字轮廓掩膜; 对抹除区域文字轮廓掩膜进行形态学膨胀,由此得到修复区域掩膜; 图像修复填充步骤,根据修复区域掩膜以及修复区域周围的像素信息进行图像修复填充,得到抹除文字后的背景模板: 根据修复区域掩膜,在原始图像中确定待修复区域; 从外到内的顺序轮询待修复区域的每个像素点,根据某个像素点周围已知像素的信息,计算该修复点应该填充的像素值,成为已知像素; 向内计算下一个像素点的像素值; 逐步迭代,待修复区域逐渐收缩变小,直到待修复区域都被修复,得到已修复的抹除文字后的背景模板; 随机文本生成步骤,在每个生成区域内生成随机文本,由此得到一张新的样本图片和与之对应的标注信息文件: 针对某一生成区域,确定针对该生成区域的随机文本预计长度w,设定字体大小为s,估算该段随机文本的文字个数n=intws; 生成n*k个字符长度的冗余随机文本,k为冗余倍数,取值为正整数; 根据冗余随机文本长度和随机文本预计长度w的关系,确定最终生成的随机文本及其实际长度L; 在生成区域内随机确定该生成文本的位置,写入该最终生成的随机文本并确定其标注信息; 轮询每个生成区域,由此得到一张新的样本图片和与之对应的标注信息文件。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京易道博识科技有限公司,其通讯地址为:100083 北京市海淀区农大南路1号院2号楼5层办公A-501;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。