上海阶跃星辰智能科技有限公司葛政获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉上海阶跃星辰智能科技有限公司申请的专利基于OCR的任务处理方法、设备、介质及产品获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120260047B 。
龙图腾网通过国家知识产权局官网在2025-11-28发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510748638.1,技术领域涉及:G06V30/14;该发明授权基于OCR的任务处理方法、设备、介质及产品是由葛政;孙建建;魏浩然;刘成龙;陈锦岳设计研发完成,并于2025-06-06向国家知识产权局提交的专利申请。
本基于OCR的任务处理方法、设备、介质及产品在说明书摘要公布了:本申请实施例涉及信息技术基于OCR的任务处理方法、设备、介质及产品。方法包括:根据文档图像和视觉编码器,确定图像特征;通过连接器,将图像特征映射至解码器的文本空间;根据针对文档图像发出的文本指令,确定文本特征;根据解码器,对图像特征和所述文本特征进行融合,确定OCR的识别结果。可以至少用以解决传统OCR框架中各个模块相对独立,模块之间因衔接和误差累积带来的准确性降低,以及处理多种复杂任务时泛化能力不足的技术问题。
本发明授权基于OCR的任务处理方法、设备、介质及产品在权利要求书中公布了:1.一种基于OCR的任务处理方法,其特征在于,所述方法应用于多模态视觉语言模型,所述多模态视觉语言模型采用端到端训练得到;所述多模态视觉语言模型包括视觉编码器、连接器和解码器;所述方法包括: 根据文档图像和所述视觉编码器,确定图像特征; 通过所述连接器,将所述图像特征映射至解码器的文本空间;其中,所述连接器为维度为1024×1024线性层MLP,用于融合处理来自不同模态的信息; 根据所述解码器,针对所述文档图像发出的文本指令,确定文本特征;其中,所述文本指令至少包括以下之一:第一文本指令、第二文本指令、第三文本指令和第四文本指令;所述第一文本指令,用于对普通文本进行识别;所述第二文本指令,用于对带格式的文本进行识别;所述第三文本指令,用于对超高分辨率图像的文本进行识别;所述第四文本指令,用于对存在多页文档的文本进行识别; 根据所述解码器,对所述图像特征和所述文本特征进行融合,促使视觉信息与文本信息相互补充以生成文本序列,确定OCR的识别结果; 其中,所述多模态视觉语言模型的训练方法包括:将所述视觉编码器接入预设的语言模型进行预训练,确定目标视觉编码器;将目标视觉编码器接入所述解码器,并根据所述目标视觉编码器的参数和所述解码器进行训练,得到所述多模态视觉语言模型。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人上海阶跃星辰智能科技有限公司,其通讯地址为:200232 上海市徐汇区云锦路701号30层;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励