复旦大学陈智能获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉复旦大学申请的专利文本图像和公式图像的统一识别方法、系统、存储介质及设备获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN121366423B 。
龙图腾网通过国家知识产权局官网在2026-02-13发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511936364.5,技术领域涉及:G06V30/41;该发明授权文本图像和公式图像的统一识别方法、系统、存储介质及设备是由陈智能;姜育刚;杜永坤;吴祖煊;谢雅真;白维康;李枳贤设计研发完成,并于2025-12-22向国家知识产权局提交的专利申请。
本文本图像和公式图像的统一识别方法、系统、存储介质及设备在说明书摘要公布了:本发明提供了一种文本图像和公式图像的统一识别方法、系统、存储介质及设备,属于计算机视觉和自然语言处理技术领域。本发明通过向训练标签序列中插入行结束标记与段落结束标记,显式编码文档层级结构;并构建语义解耦分词器,为文本与公式中的相同符号分配独立标识,解决语义混淆问题。基于视觉编码器提取图像特征后,结合解码器进行自回归训练,实现文本、公式及混合图像的高精度统一识别。本发明在仅0.1B参数规模下,达到与大规模模型相当的识别精度,显著提升了推理速度,可广泛用于文档数字化、学术文献处理等场景。
本发明授权文本图像和公式图像的统一识别方法、系统、存储介质及设备在权利要求书中公布了:1.一种文本图像和公式图像的统一识别方法,其特征在于,包括以下步骤: S10,获取训练样本,所述训练样本包括训练图像及其对应的第一标签序列,所述训练图像包括训练文本图像、训练公式图像以及训练文本公式混合图像,随后在所述第一标签序列中插入行结束标记和段落结束标记得到第二标签序列Label; S20,使用视觉编码器提取所述训练图像的多尺度特征Fmap后,将其空间维度展平至一维,得到视觉特征序列F; S30,使用纯文本语料和数学公式语料分别独立训练得到文本分词器和公式分词器后,将所述公式分词器整合至所述文本分词器中并为在所述文本分词器的词汇表中出现的公式分词标记添加标识符以形成语义明确的统一词汇表,最终得到语义解耦分词器SDT,其中,所述标识符用于明确所述文本分词器的词汇表中出现的公式分词标记,从而避免所述文本分词器和所述公式分词器各自的词汇表中的公式分词标记混用带来的语义混淆; S40,使用所述语义解耦分词器SDT对所述第二标签序列Label进行分词处理得到分词序列Y后通过文本嵌入层将其映射得到连续嵌入向量T; S50,使用基于交叉注意力机制的解码器对所述视觉特征序列F和所述连续嵌入向量T进行建模得到预测的分词序列后,以和Y的交叉熵损失作为监督进行自回归解码训练,得到文本图像和公式图像的统一识别模型; S60,将待识别图像输入所述统一识别模型中从而输出识别序列结果并对应将其中的所述行结束标记和所述段落结束标记转换为换行符和段落结束符,最终实现文本和公式的统一识别,所述待识别图像包括待识别文本图像、待识别公式图像以及待识别文本公式混合图像。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人复旦大学,其通讯地址为:200433 上海市杨浦区邯郸路220号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励