Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 积分商城 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 湖北工业大学熊炜获国家专利权

湖北工业大学熊炜获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉湖北工业大学申请的专利基于注意力机制的自然场景图像中文本识别方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116434241B

龙图腾网通过国家知识产权局官网在2025-11-11发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310120821.8,技术领域涉及:G06V30/18;该发明授权基于注意力机制的自然场景图像中文本识别方法及系统是由熊炜;孙鹏;强观臣;田紫欣;陈奕博;赵迪;刘粤;万相奎设计研发完成,并于2023-02-13向国家知识产权局提交的专利申请。

基于注意力机制的自然场景图像中文本识别方法及系统在说明书摘要公布了:本发明公开了一种基于注意力机制的自然场景图像中文本识别方法及系统,一种无需校正或分割的方法,通过搭建多级EfficientSwinTransformer网络提取丰富的全局特征,实现不同窗口特征之间的信息交互,对全局信息进行建模,并且嵌入通道注意力突出某些重要通道的特征。后经注意力机制得到视觉特征,使得网络将关注的焦点置于特征图的文本区域,提高了网络的特征提取能力;其次通过语义推理模块考虑字符上下文信息,对文本序列进行建模得到语义特征,提升了网络的预测能力;最后使用双特征融合单元融合不同模态的视觉、语义特征,并分类得到最终的文本识别结果,有效地避免了分割字符的缺陷,同时考虑到了字符与字符之间的内在联系。

本发明授权基于注意力机制的自然场景图像中文本识别方法及系统在权利要求书中公布了:1.一种基于注意力机制的自然场景图像中文本识别方法,其特征在于:采用自然场景文本识别网络,对自然场景图像中文本进行识别; 所述自然场景文本识别网络,包括多级视觉特征提取模块efficientSwinTransformer、视觉注意力模块DUnetAttention、语义推理模块SemanticReasoningBlock、双特征融合单元DFFU; 所述多级视觉特征提取模块efficientSwinTransformer,用于输出全局特征F;包括分块层PatchPartition、线性嵌入层LinearEmbeding、SwinTransformerBlock层、ECA模块;其中,若干所述高效通道注意力ECA模块和所述SwinTransformerBlock层级联连接,级联方式为在SwinTransformerBlock层后嵌入高效通道注意力ECA模块;所述SwinTransformerBlock层由顺序连接的基于窗口的多头自注意力模块W-MSA、多层感知机MLP、基于移动窗口多头自注意力模块SW-MSA和多层感知机MLP组成,在所述W-MSA模块、MLP以及SW-MSA模块前都设置有LN模块,组成四个小单元,每个小单元通过残差方式连接; 所述视觉注意力模块DUnetAttention,由V、Q、K三个分支组成,得到视觉特征Fv;所述V分支由全局特征F线性变换得到,经过全连接层Linear后输出;所述Q分支通过位置编码层PositionalEncoding得到,经过全连接层Linear后输出;所述K分支由全局特征F依次经过一个可变形卷积DeformableConv、DUnet网络得到;所述Q、K分支输出经过逐位乘法操作后的输出与V分支输出经过逐位乘法操作后输出; 所述视觉特征Fv,经过全连接层Linear和归一化操作层softmax求得字符的概率特征Fp,根据字符预测顺序设置字符掩码矩阵Mmask,将Fp和Mmask输入所述语义推理模块SemanticReasoningBlock;所述语义推理模块SemanticReasoningBlock,包括掩码多头自注意力模块MaskedMulti-HeadAttention、标准化层Normalize、前馈连接层FeedForward、标准化层Normalize、全连接层Linear及归一化操作层softmax,得到语义特征Fs;所述概率特征Fp和掩码矩阵Mmask经过所述掩码多头自注意力模块MaskedMulti-HeadAttention得到特征Fm,依次经过标准化层Normalize、前馈连接层FeedForward、标准化层Normalize、全连接层Linear及归一化操作层softmax,并且概率特征Fp以残差方式连接到所述的标准化层Normalize,在所述前馈连接层FeedForward前以残差方式连接到下一个标准化层Normalize; 所述双特征融合单元DFFU,用于融合视觉特征Fv和语义特征Fs,对视觉特征Fv、语义特征Fs分别经过全连接层Linear后进行拼接操作,通过Sigmod函数计算各特征的贡献比重,融合视觉特征和语义特征,输出融合后的特征Ff。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人湖北工业大学,其通讯地址为:430068 湖北省武汉市洪山区南李路28号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。