浙江大学张三元获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉浙江大学申请的专利一种多阅读方向的文字图像识别方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114495076B 。
龙图腾网通过国家知识产权局官网在2025-09-02发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202111456350.5,技术领域涉及:G06V20/62;该发明授权一种多阅读方向的文字图像识别方法是由张三元;刘旭设计研发完成,并于2021-12-01向国家知识产权局提交的专利申请。
本一种多阅读方向的文字图像识别方法在说明书摘要公布了:本发明公开了一种多阅读方向的文字图像识别方法。本发明对包含文字的自然场景图像进行预处理后,获得预处理后的文本块图像;通过在卷积骨干网络对预处理后的文本块图像提取图像特征后使用交叉自注意力模块来获取不同阅读顺序文本的方向信息,最后通过字符解码模块进行解码输出,实现对不同阅读顺序文本序列的解码和识别。本发明在轻微增加延时的情况下实现了只通过一次网络的前馈就可以识别出不同方向排列的文本图片,且识别性能相较于普通模型仍具有一定的提升。
本发明授权一种多阅读方向的文字图像识别方法在权利要求书中公布了:1.一种多阅读方向的文字图像识别方法,其特征在于,包括以下步骤: 1对包含文字的自然场景图像进行预处理后,获得预处理后的文本块图像; 2将预处理后的文本块图像输入骨干卷积神经网络中进行特征提取与降采样,获得一维视觉特征图; 3一维视觉特征图输入交叉自注意力模块中进行并行交叉自注意力矫正,获得矫正文本向量; 4将矫正文本向量输入字符解码模块中进行解码后,输出识别的文本字符串; 所述步骤2中的骨干卷积神经网络由卷积降采样模块依次经6层的深度卷积模块、第一可分离卷积降采样模块、12层的深度卷积模块和第二可分离卷积降采样模块后与均值池化降采样模块相连组成,预处理后的文本块图像输入卷积降采样模块,均值池化降采样模块输出一维视觉特征图; 所述步骤3具体为: 所述交叉自注意力模块中首先对一维视觉特征图分别进行宽度维度的编码以及两个不同的线性变换后,分别获得特征查询向量、特征键向量和特征值向量,再对特征查询向量、特征键向量和特征值向量进行通道维度上的切片后,分别获得N个特征查询子向量段、特征键子向量段和特征值子向量段并分别按顺序编号,对各个相同编号的特征查询子向量段、特征键子向量段和特征值子向量段进行交叉自注意力矫正,获得各个编号的矫正文本子向量段,最后按编号对各个矫正文本子向量段进行通道维度上的拼接后,获得矫正文本向量。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人浙江大学,其通讯地址为:310058 浙江省杭州市西湖区余杭塘路866号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。