昆明理工大学毛存礼获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉昆明理工大学申请的专利基于多粒度解码约束的缅甸语图像文本识别方法及装置获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119580268B 。
龙图腾网通过国家知识产权局官网在2025-09-23发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510064855.9,技术领域涉及:G06V30/148;该发明授权基于多粒度解码约束的缅甸语图像文本识别方法及装置是由毛存礼;张凌霄;陈蕊;余正涛;黄于欣;王振晗设计研发完成,并于2025-01-15向国家知识产权局提交的专利申请。
本基于多粒度解码约束的缅甸语图像文本识别方法及装置在说明书摘要公布了:本发明涉及基于多粒度解码约束的缅甸语图像文本识别方法及装置,属于自然语言处理领域。缅甸语文本具有独特的编码顺序以及字符组合规则,为了解决缅甸语图像中形似字符识别不佳的问题,提出一种基于多粒度解码约束的缅甸语文本图像识别方法,主要由缅甸语文本图像数据集构建及预处理、设计包括基于滑动窗口的Transformer、语言特性驱动的多粒度特征抽取模块、多粒度特征融合模块的基于多粒度解码约束的缅甸语文本图像识别模型以及缅甸语文本图像识别四个部分构成。根据这四个部分功能模块化制成基于多粒度解码约束的缅甸语图像文本识别装置,有效地解决了因图像质量不佳而导致的缅甸语形似字符识别困难问题。
本发明授权基于多粒度解码约束的缅甸语图像文本识别方法及装置在权利要求书中公布了:1.基于多粒度解码约束的缅甸语图像文本识别方法,其特征在于:所述方法的具体步骤如下: Step1、缅甸语文本图像数据集构建及预处理; Step2、构建基于多粒度解码约束的缅甸语文本图像识别模型,包括: Step2.1、设计基于滑动窗口的Transformer提取缅甸语的文本图像特征,获取原始视觉特征; Step2.2、设计语言特性驱动的多粒度特征抽取模块:用于从原始视觉特征中自适应地提取不同粒度的视觉特征,并将这些特征与相应粒度的字符位置对齐,用于支持后续的多粒度解码过程;其中,使用语言特性驱动的多粒度特征抽取模块分别捕捉字符级、字符簇级以及音节级不同粒度的视觉特征; Step2.3、设计多粒度特征融合模块对捕捉到的不同粒度的视觉特征,采用置信度融合策略进行解码约束,得到最终的预测文本结果; Step3、用构建好的基于多粒度解码约束的缅甸语文本图像识别模型进行缅甸语文本图像识别; 所述Step2.2中,设计语言特性驱动的多粒度特征抽取模块包括位置信息增强和多粒度视觉信息抽取两个部分,用于从原始视觉特征中自适应地提取不同粒度的特征,并将这些特征与相应粒度的字符位置对齐;同时鉴于在不同粒度解码时同一时刻关注的位置信息不同,设计了一个多分支的视觉信息抽取模块,用以分别关注字符、字符簇以及音节粒度的视觉特征,用于后续的多粒度解码; 所述Step2.3包括: Step2.3.1、经过语言特性驱动的多粒度特征抽取模块后得到的字符级、字符簇级以及音节级不同粒度的视觉特征定义为[],其中 ,用于后续的多粒度特征解码,分别表示提取的字符、字符簇以及音节的视觉特征; Step2.3.2、通过线形层网络将不同粒度的视觉特征[]转录为各自粒度的字符及其置信度,置信度的计算方式如下公式所示: 其中,表示不同粒度解码的置信度,为线性层网络函数,最终得到的是不同粒度的置信度合集={...}; Step2.3.3、多粒度预测的分类结果由不同的分类头生成,采用基于置信度融合的策略来合并预测最终的文字结果;具体而言,每个字符、字符簇和音节的识别置信度通过融合函数生成最终的识别分数,识别分数具体公式如下: ; 其中,表示不同粒度解码的置信度,通过每个字符的置信度累积得到文本图像的三个分类头的三个识别分数,选择识别分数最高的文本结果作为最终的预测结果。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人昆明理工大学,其通讯地址为:650500 云南省昆明市呈贡区景明南路727号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励