Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 积分商城 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 杭州电子科技大学曹九稳获国家专利权

杭州电子科技大学曹九稳获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉杭州电子科技大学申请的专利一种基于图像全局信息查询解码的文本识别方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119540960B

龙图腾网通过国家知识产权局官网在2025-09-26发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411664385.1,技术领域涉及:G06V30/18;该发明授权一种基于图像全局信息查询解码的文本识别方法是由曹九稳;徐婉澎;刘德康设计研发完成,并于2024-11-20向国家知识产权局提交的专利申请。

一种基于图像全局信息查询解码的文本识别方法在说明书摘要公布了:本发明公开了一种基于图像全局信息查询解码的文本识别方法。该方法通过引入全局图像信息作为解码器解码条件,在所有时间步中共享,并通过自注意力机制实现对共享的全局图像信息的自适应变换,进而在交叉注意力层中检索每个时间步对应的字符级特征;同时,提出了一系列的编码约束组件,缓解了构建的文本识别器在多语言识别中面临的全局图像特征质量不一致问题。本发明在多语言文本图像识别中文、英文和多场景文本图像识别自然场景、网络文本等任务中显示出有效性和通用性,取得了显著的非规则文本图像识别性能提升。

本发明授权一种基于图像全局信息查询解码的文本识别方法在权利要求书中公布了:1.一种基于图像全局信息查询解码的文本识别方法,其特征在于,包括如下步骤: 步骤1:使用图像特征提取器编码输入的文本图像为对应的图像特征其中H,W分别为文本图像的高和宽,“3”为图像通道数,d,h,w分别为图像特征的通道数,高度和宽度;进一步对FI执行全局平均池化计算得到图像全局特征对FI执行展平操作得到图像视觉标记其中m=h×w; 步骤2:使用预设的三种特征编码约束组件变换F为不同的输出形式,通过额外的训练目标使得F包含足够的图像全局信息;所述的预设的三种特征编码约束组件包括面向语言知识约束的双向图像-文本全局对齐模块,面向全局结构约束的长度预测器模块和面向全局语义约束的无序字符预测器模块; 步骤3:复制T份F得到全解码时间步共享的图像全局信息查询解码矩阵其中T为预设的最大解码时间步;将Fq与Fv作为输入,通过由多头自注意力层、多头交叉注意力层、前向传播层构成的解码模块,得到表示矩阵其中表示第t个字符对应的特征表示; 步骤4:通过T个时间步共享的线性分类器映射Fr为分类输出其中C表示预设的字符类别数量;进而根据Ocls和X对应的识别标签计算交叉熵损失其中yt表示第t个时间步的期望字符类别; 步骤5:通过计算面向语言知识约束的图像全局特征编码约束损失面向全局结构约束的图像全局特征编码约束损失和面向全局语义约束的图像全局特征编码约束损失进一步优化全局图像信息;再结合线性组合和得到最终损失,使用反向传播更新非自回归文本识别NASTR模型参数;所述的非自回归文本识别NASTR模型,由步骤1至步骤4中所述的图像特征提取器、特征编码约束组件、解码模块和线性分类器组成; 步骤6:通过训练好的非自回归文本识别NASTR模型实现文本识别。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人杭州电子科技大学,其通讯地址为:310018 浙江省杭州市钱塘区白杨街道2号大街1158号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。