中国科学院合肥物质科学研究院汪增福获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉中国科学院合肥物质科学研究院申请的专利基于注意力机制的语种敏感的多语种文本识别方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116343225B 。
龙图腾网通过国家知识产权局官网在2025-12-23发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211737696.7,技术领域涉及:G06V30/18;该发明授权基于注意力机制的语种敏感的多语种文本识别方法是由汪增福;高铭设计研发完成,并于2022-12-30向国家知识产权局提交的专利申请。
本基于注意力机制的语种敏感的多语种文本识别方法在说明书摘要公布了:本发明公开了一种基于注意力机制的语种敏感的多语种文本识别方法,其步骤包括:首先收集带有标注的文本图片,建立文本识别数据集;接着构建基于注意力机制的语种敏感的多语种文本识别模型;然后运行基于注意力机制的语种敏感的多语种文本识别模型;最后计算每张文本图片对应的损失函数,训练基于注意力机制的语种敏感的多语种文本识别网络;最后利用训练好的网络对图片进行识别,得到识别结果。本发明无须为不同语种训练各自的识别网络,且能够对不同语种进行有针对性的识别,从而能实现在各个语种的文本图像上均衡的进行高精度识别,以提高识别率。
本发明授权基于注意力机制的语种敏感的多语种文本识别方法在权利要求书中公布了:1.一种基于注意力机制的语种敏感的多语种文本识别方法,其特征在于,包括以下步骤: 步骤1:收集统一剪裁并带有标签的多语种文本图片,从而建立多语种文本识别数据集X,将X对应的单词级标签集合记为gt_word,X对应的语种标注所构成的标签集合记为gt_lang;令多语种文本识别数据集X所覆盖的语种类别数为Nlang;令gt_word中所有单词级标注所包含字符中,属于第i个语种的字符总数为 步骤2:构建基于注意力机制的语种敏感的多语种文本识别模型,包括:基于ResNet的特征提取模块、基于双向长短期记忆网络的语种识别模块、基于注意力机制的长度敏感的编码模块、基于注意力机制的语种敏感的解码模块; 所述特征提取模块,包含:n1个卷积块;其中,每个卷积块依次包含:1个最大池化层、1个卷积层、1个bn层和1个ReLU激活函数;令第2个至第n个卷积块的卷积层后连接一个残差结构; 所述语种识别模块,包含:2个双向长短期记忆网络BiLSTM、1个带softmax激活函数的线性层和预测层;其中,线性层的输出数即为待识别的语种类别数Nlang; 所述编码模块,包含:一个线性前馈网络、一个长度敏感模块、一个位置前馈网络和另一个线性前馈网络;其中,所述长度敏感模块包含短文本前馈分支和长文本前馈分支;所述短文本前馈分支由一个LN层和两个连续的卷积层组成;所述长文本前馈分支由一个LN层和一个多头自注意力网络组成;所述位置前馈网络包含一个LN层和三个卷积层; 所述解码模块,包含:n3个自注意力模块和Nlang个语种敏感的线性层; 步骤3:基于注意力机制的语种敏感的多语种文本识别模型的处理; 步骤3.1:基于ResNet的特征提取模块的处理; 将多语种文本识别数据集X中的一张文本图片x输入多语种文本识别模型中,经过特征提取模块的n1个卷积块的处理后,得到尺寸为的特征图F,其中,C为输出通道数; 步骤3.2:基于双向长短期记忆网络的语种识别模块的处理; 对特征图F求高度方向上的平均值,得到尺寸为Wcls×C的二维特征序列,其中,Wcls为特征提取模块输出的宽度; 将二维特征序列输入所述语种识别模块中,并依次经过2个连续的双向长短期记忆网络BiLSTM的处理后中,得到尺寸为Wcls×C的特征序列; 将尺寸为Wcls×C的特征序列输入所述线性层中,并得到尺寸为Wcls×Nlang的特征图,所述预测层对特征图在宽度上取平均值后再进行softmax激活,得到长度为Nlang的语种预测概率分布p;并从语种预测概率分布p中选取最大概率所对应的第l个语种作为文本图片x的语种识别结果pl; 步骤3.3:基于注意力机制的长度敏感的编码模块的处理; 将所述特征图F经过位置编码后,得到编码特征序列,再依次输入到线性前馈网络、长度敏感模块、位置前馈网络和另一个线性前馈网络中,得到尺寸为Wenc×C的编码结果Fenc;其中,若文本图片x的长宽比大于阈值M,则输入到长度敏感模块的长文本前馈分支中处理,若文本图片x的长宽比小于等于阈值M,则输入到长度敏感模块的短文本前馈分支中处理; 步骤3.4:基于注意力机制的语种敏感的解码模块的处理; 所述编码结果Fenc依次经过n3个自注意力模块的处理后,得到尺寸为Wdec×C的解码特征; 根据文本图片x的语种识别结果pl,将解码特征送入到对应第l个语种敏感的线性层中进行处理,得到尺寸为的解码概率分布; 步骤4:分别计算文本图像集合X的语种识别损失函数和文本识别损失函数,训练多语种文本识别网络; 步骤4.1:利用式1构建语种识别损失函数Llang: 式1中,gt_langl表示文本图片x的真实语种标注;I为指示函数; 步骤4.2:利用式2构建文本识别损失函数Lseq; 式2中,yt表示所述解码模块在第t个时间步的解码结果,ct表示yt的单词级标注;T表示总时间步; 步骤4.3:利用式3构建多语种文本识别网络的总体损失函数L: L=alangLlang+aseqLseq3 式3中,alang表示语种识别损失的平衡因子,aseq表示文本识别损失的平衡因子,两者均为超参数; 步骤5:基于多语种文本识别数据集X,利用梯度下降法对所述多语种文本识别模型进行训练,并计算总体损失函数L以更新模型参数,直到总体损失函数L收敛为止,从而得到训练后的多语种文本识别网络,用于对任意输入的待识别图片进行识别,得到相应的语种识别结果。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中国科学院合肥物质科学研究院,其通讯地址为:230031 安徽省合肥市蜀山区蜀山湖路350号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励