南京大学郭延文获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉南京大学申请的专利一种基于深度卷积神经网络的文本矫正方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114612920B 。
龙图腾网通过国家知识产权局官网在2025-10-17发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210306080.8,技术领域涉及:G06V30/412;该发明授权一种基于深度卷积神经网络的文本矫正方法是由郭延文;孟祥祥设计研发完成,并于2022-03-25向国家知识产权局提交的专利申请。
本一种基于深度卷积神经网络的文本矫正方法在说明书摘要公布了:本发明公开了一种基于深度卷积神经网络的文本矫正方法,包括以下步骤:步骤1:采集文本的图像数据;步骤2:用经过预处理后的边缘检测神经网络进行训练模型;步骤3:根据步骤2得到的训练好的模型处理原始文本图像,得到边缘图像;步骤4:对边缘图像进行霍夫投票;步骤5:对投票结果进行筛选,以获得合理的4条直线,组成文本轮廓;步骤6:对检测到的四边形轮廓,进行单应性变换,得到最终的矫正文本。原本由于拍摄姿势不正,导致照片中文本发生畸变,比如A4纸张被拍摄成了梯形,经过该文本矫正,可还原为A4纸形状,降低了文本检测的错误率,使算法更加鲁棒。
本发明授权一种基于深度卷积神经网络的文本矫正方法在权利要求书中公布了:1.一种基于深度卷积神经网络的文本矫正方法,其特征在于, 包括以下步骤: 步骤1:采集文本图片数据,并对数据进行预处理; 步骤2:构建神经网络模型,并使用采集的数据进行训练; 步骤3:训练完成后,将待检测图像输入网络模型,得到边缘图像; 步骤4:对步骤3得到的边缘图像,进行霍夫投票; 步骤5:处理步骤4中的霍夫投票结果,得到四边形; 步骤6:根据将步骤5中的四边形的四个角点,对原图像进行单应性变换,得到矫正后的文本, 步骤1包括:在网络上爬取相应的文本图片,并对爬取到的图片进行筛选,去除其中与文本不对应的图片,并准备桌面物品作为文本图片的噪声,以随机的位置,和文本图片进行结合; 步骤1-1,从全部文本图片,选取部分图片,对文本图片随机地添加些遮挡物对原图中的文本进行随机部位的遮挡; 步骤1-2,将经过步骤1-1后的数据集中的图像,缩放成像素尺寸为256*256; 步骤1-3,对256*256的图像做归一化处理, 步骤2包括如下步骤: 步骤2-1,构造神经网络模型; 步骤2-2,初始化神经网络模型,采用预训练好的网络参数; 步骤2-3,用步骤1中预处理后的正方形图像数据对神经网络模型进行训练,并保存训练好的模型, 步骤2-1包括如下步骤: 构造神经网络模型,该模型采用RCF,基于VGG16网络架构,该模型包含五个层级的特征提取架构,具体结构为:输入为大小为256*256*3的图像;第1层级为包括2个卷积层,卷积核的大小是3*3,卷积核的数量是64;第2层级为包括2个卷积层,卷积核的大小是3*3,卷积核的数量是128;第3层级为包括3个卷积层,卷积核的大小是3*3,卷积核的数量是256;第4层级为包括3个卷积层,卷积核的大小是3*3,卷积核的数量是512;第5层级为包括3个卷积层,卷积核的大小是3*3,卷积核的数量是512,每个层级的卷积层,连接一个卷积层,卷积核的大小是1*1,卷积核的数量为21,对于每一层级,将所有的1*1卷积的结果,再连接一个卷积,卷积核的大小是1*1,卷积核的数量为1,然后再进行一次反卷积,到原始图片的大小,作为该层级的中间输出,最后将5个层级的所有中间输出,进行concat操作,对结果进行最后一个卷积操作,卷积核的大小是1*1,卷积核的数量为1,得到最终结果, 步骤4-1,建立参数空间; 霍夫投票的关键是建立参数空间,即霍夫空间,直线在极坐标系下,由参数θ和参数ρ共同决定,参数θ的范围为0,π,均分为m个单元,参数ρ的范围为-l,l均分为n个单元参数空间一共m*n个单元,其中l为图片对角线的长度; 步骤4-2,建立一个同等大小m*n的投票表格,将之前得到的边缘图像,提取出其中的边缘像素点,可以提取的像素点的个数记为s,对每一个像素点,求其在霍夫空间的m个离散点; 步骤4-3,收集所有的边缘像素点对应的所有的霍夫空间的离散点,一共有s*m个,将所有离散点在投票表中进行投票,得票数较多的即可作为候选直线, 步骤4-3中,得到了霍夫投票结果,在此基础上,进行如下步骤: 步骤5-1,将上述得票较多的候选直线,使用聚类的方法,根据θ和ρ,分成4大类直线簇; 步骤5-2对每个直线簇Linesi,选出得票数最多的那条直线Topi; 步骤5-3对每个直线簇Linesi,继续搜寻可能的候选直线,但这些直线的得票数必须达到一定的阈值,此处,设定每一类的候选直线不能超过3条; 步骤5-4将5-3步骤中得到的4类候选直线,各选1条直线,进行组合; 步骤5-5组合的结果必须是四边形,且至少有3个交点全部出现在图片内部; 步骤5-6对得到的所有的四边形计算面积,得到面积最大的那个四边形,即为最终的目标, 将步骤5中的四边形的四个角点,对角点坐标进行还原,得到在原图中的4个坐标点,根据4个坐标点,对原图像进行单应性变换,得到矫正后的文本。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人南京大学,其通讯地址为:210000 江苏省南京市栖霞区仙林大道163号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励