北京工商大学刘敏华获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉北京工商大学申请的专利基于Transformer网络模型的数字标牌图像文本识别方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN117152764B 。
龙图腾网通过国家知识产权局官网在2025-08-22发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202311186744.2,技术领域涉及:G06V30/148;该发明授权基于Transformer网络模型的数字标牌图像文本识别方法是由刘敏华;张珣;黄先开;石金莲;梁春芳;张鑫设计研发完成,并于2023-09-14向国家知识产权局提交的专利申请。
本基于Transformer网络模型的数字标牌图像文本识别方法在说明书摘要公布了:本发明公布了一种基于Transformer网络模型的数字标牌图像文本识别方法,基于Transformer网络模型与场景文本识别STR技术,利用相对位置编码获取数字标牌图像的位置编码,将不同子空间的特征表达连接到编码器,从而准确识别数字标牌图像中的文本。本发明采用相对位置编码从水平、竖直两个维度上对图像特征图进行编码,可准确捕获二维图像块之间的位置信息,更好地建模图像中的文本信息,能够更加准确地识别数字标牌图像中的文本。
本发明授权基于Transformer网络模型的数字标牌图像文本识别方法在权利要求书中公布了:1.一种基于Transformer网络模型的数字标牌图像文本识别方法,其特征是,基于Transformer网络模型与场景文本识别STR技术,利用相对位置编码获取数字标牌图像的位置编码,将不同子空间的特征表达连接到编码器,从而准确识别数字标牌图像中的文本;包括如下步骤: 1利用文本检测网络CTPN对数字标牌图像进行文字检测,获取数字标牌图像中文本区域的候选框; 2根据步骤1得到的候选框对数字标牌图像进行降噪处理,作为输入数字标牌图像数据; 3每个输入数字标牌图像x∈RH×W×C包括一系列二维图像块;图像尺寸为H×W,通道数为C;利用线性投影获取数字标牌图像的图像块向量; 4利用相对位置编码方法计算得到数字标牌图像各二维图像块之间的位置编码;并与步骤3中得到的图像块向量相加得到的向量,作为Transformer模型编码器的输入; 利用二维相对位置编码捕获二维图像块之间的位置关系,将输入二维图像块之间的相对位置编码为向量并嵌入到自注意力模块,表示为: 其中,x=x1,…,xn是输入序列,数字标牌图像块的嵌入,z=z1,...,zn是输出序列,dx=dz,WV、WQ、WK是参数矩阵,是输入二维图像块之间的相对位置编码向量,αij是图像块i和图像块j之间的权重系数,eij是通过归一化指数函数softmax后图像块i对于图像块j的关注程度,bij是二维相对位置编码,下标i和j对应数字标牌图像上的两个二维坐标; 从水平、竖直方向的两个维度上对数字标牌图像进行编码,分别计算水平方向和垂直方向上的编码,再进行汇总;对输入的二维图像块之间的相对位置进行编码,二维相对位置编码表示为: bij=xiWQrij T 其中,是图像块i和图像块j在水平方向上的相对位置,是图像块i和图像块j在垂直方向上的相对位置,是水平方向上的位置编码,是垂直方向上的位置编码,rij表示图像块i和图像块j之间的相对位置权重,和均为可学习标量; 将得到的图像块向量与利用相对位置编码得到的位置编码信息相加,作为Transformer模型编码器的输入; 5利用Transformer模型编码器,对输入的数据提取数字标牌图像中文本的特征向量,通过编码器的多头自注意力机制确定文本特征向量之间的关系,利用编码器的前馈神经网络对多头自注意力层的输出结果做非线性变换,输出识别到的文本; 具体是对每个Transformer模型编码器的输入利用层归一化方法进行归一化,利用多头自注意力处理来自不同位置的不同子空间的信息,确定特征向量之间的关系,将层归一化的输出与多头自注意力的输出做残差连接,输出结果再次进行归一化,利用前馈神经网络做非线性变换,由此输出识别到的文本; 通过上述步骤,即实现基于Transformer网络模型的数字标牌图像文本识别。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京工商大学,其通讯地址为:100048 北京市海淀区阜成路33号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。