Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 积分商城 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 中国科学院合肥物质科学研究院汪增福获国家专利权

中国科学院合肥物质科学研究院汪增福获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉中国科学院合肥物质科学研究院申请的专利一种基于视觉语言联合推理的中文手写文本行识别方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115761764B

龙图腾网通过国家知识产权局官网在2025-12-23发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211453466.8,技术领域涉及:G06V30/244;该发明授权一种基于视觉语言联合推理的中文手写文本行识别方法是由汪增福;李涛设计研发完成,并于2022-11-21向国家知识产权局提交的专利申请。

一种基于视觉语言联合推理的中文手写文本行识别方法在说明书摘要公布了:本发明公开了一种基于视觉语言联合推理的中文手写文本行识别方法,是建立基于视觉语言联合推理的中文手写文本行识别模型,采用多模态注意力融合视觉特征和文本语言特征,并在训练过程中通过滑动窗口的随机采样注意力掩码引导模型学习在不同的语义上下文的条件下结合视觉特征对每个字符进行识别,得到初步识别结果再次送入模型的解码模块根据全局上下文进行迭代,得到修正后的结果。本发明以一个端到端的算法,同时实现视觉推理和语言上下文推理,以及具有迭代纠错的能力,无需依赖外部的语言模型,有效地提高了对中文手写文本行的识别准确率。

本发明授权一种基于视觉语言联合推理的中文手写文本行识别方法在权利要求书中公布了:1.一种基于视觉语言联合推理的中文手写文本行识别方法,其特征在于,包括以下步骤: 步骤1:收集中文手写文本行图像集合}及其对应的文本标签集合Y并作为训练样本集,其中,表示第i张训练图像样本,表示第i张训练样本图像的文本标签,且,表示文本标签中的第t个字符;T表示字符总数,n表示样本图像的数量;H表示样本图像的高,W表示样本图像的宽; 步骤2:搭建基于多模态注意力的中文手写文本行识别网络,包括:视觉特征编码模块,多模态特征交互解码模块和文本类别预测模块; 步骤2.1:所述视觉特征编码模块包括:一个卷积神经网络,一个位置编码层以及一个自注意力层; 步骤2.1.1:所述卷积神经网络采用ResNet结构,依次包括4个卷积块及其对应最大池化层,其中,每个卷积块包括若干个残差块; 将第i张训练文本图像输入到所述中文手写文本行识别网络中,并依次经过所述视觉特征编码模块的卷积神经网络中的卷积和下采样操作,从而输出第i个卷积特征;表示卷积特征的维度; 步骤2.1.2:所述位置编码层包括水平位置编码层和竖直方向位置编码层,分别采用正、余弦位置编码方式,二者再进行加权求和; 第i个卷积特征输入所述位置编码层中,并分别经过水平位置编码层的正弦位置编码处理以及竖直方向位置编码层的余弦位置编码处理,得到的结果再进行加权求和后,展开成第i个视觉特征序列; 步骤2.1.3:所述自注意力层包含1个多头自注意力层和1个前馈网络层; 第i个视觉特征序列输入所述自注意力层中进行处理,并输出第i个视觉编码特征图; 步骤2.2:所述多模态特征交互解码模块依次包括:字符嵌入层、第二位置编码层、通过残差连接的方式串联的两个多头注意力层和一个前馈网络层; 步骤2.2.1:所述文本标签输入到所述中文手写文本行识别网络中,并经过多模态特征交互解码模块中的字符嵌入层的映射处理,得到第i个文本向量; 步骤2.2.2:所述文本标签的字符位置索引通过第二位置编码层的处理后,得到第i个位置向量;其中,表示所述文本标签的第t个字符的位置向量; 步骤2.2.3:将和相加后,得到第i个融合特征图;其中,表示所述文本标签的第t个字符的融合特征向量; 步骤2.2.4:定义注意力掩码矩阵M,并将作为第一个多头注意力层的查询向量query,将作为第一个多头注意力层的键向量key和值向量value,从而利用式1得到第一个多头注意力层输出的位置上下文特征图,其中,表示第t个位置的位置上下文特征向量; 1 式1中,表示矩阵转置操作; 步骤2.2.5:以作为第二个多头注意力层的查询向量query,作作为第二个多头注意力层的键向量key和值向量value,从而利用式2得到第二个多头注意力层输出的位置视觉语义特征图: 2 步骤2.2.6:位置视觉语义特征图输入所述前馈网络层中,并依次经过第一个线性层、一个relu层和第二个线性层的处理后,得到解码器最终输出的解码特征图; 步骤2.3:所述文本类别预测模块包括:一个全连接层和一个softmax层; 解码特征图输入所述文本类别预测模块中,并依次经过全连接层和softmax层的处理后,得到第i张训练文本图像的预测值,其中,表示第i张训练文本图像的第t个位置的预测字符; 步骤3:根据和,构建交叉熵损失函数,并利用梯度下降法对所述中文手写文本行识别网络进行训练,使得所述交叉熵损失函数收敛为止,从而得到训练后的中文手写文本行识别模型Model; 步骤4:将待识别图像输入到模型Model中进行处理,得到初步预测结果,将所述初步预测结果再次输入到模型Model的模态特征交互解码模块中进行处理,并依次经过文本类别预测模块后得到修正后的识别结果。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中国科学院合肥物质科学研究院,其通讯地址为:230031 安徽省合肥市蜀山区蜀山湖路350号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。