青岛方天科技股份有限公司杨凯获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉青岛方天科技股份有限公司申请的专利基于大模型的文本识别方法、分类方法和装置获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120356230B 。
龙图腾网通过国家知识产权局官网在2026-04-14发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510467505.7,技术领域涉及:G06V30/41;该发明授权基于大模型的文本识别方法、分类方法和装置是由杨凯;于文钦;李皓;高凌;孙江;王诚宇设计研发完成,并于2025-04-15向国家知识产权局提交的专利申请。
本基于大模型的文本识别方法、分类方法和装置在说明书摘要公布了:本发明属于人工智能文本处理技术领域,涉及基于大模型的文本识别方法、分类方法和装置。本发明通过OCR识别文本后,利用大模型Transformer架构的语义理解与推理能力,精准提取上下文关键信息,通过PromptEngineering获取用户所需要数据,通过文本摘要形成向量簇,与向量库进行内积比较,输出分类名称,对输入文本分类,从而实现转化、识别、分类、存储。本发明结合了OCR识别、文本信息提取和文件属性分类等多种技术,实现了对文档的高效、准确处理。利用PPOCRv4工作流和Macro‑o1大模型对文件关键信息进行结构化提取,提高了文件关键信息提取的准确性和深度。利用Jina‑V3‑Embedding大模型和向量库进行内积比较,实现了对文本属性的快速、准确分类。
本发明授权基于大模型的文本识别方法、分类方法和装置在权利要求书中公布了:1.一种基于大模型的文本分类方法,其特征在于,包括如下步骤: 获取原始文件并转换为字节流,将转换后的字节流数据缓存至临时存储区;预设后缀名与MIME类型映射表,读取文件的后缀名,根据后缀名与MIME类型映射表,确定文件的MIME类型; 根据确定的MIME类型,调用相应的元数据提取函数,提取文件元数据信息,提取的文件元数据信息包括:文件名、文件大小、创建时间、修改时间、页码、图片分辨率中的至少一项; 对文件的原始文本内容进行识别,提取文本信息;对原始文件的文本内容进行识别包括以下内容: 调用PPOCRv4工作流,对文本图像进行识别:PPOCRv4工作流包括图像预处理、文字偏转检测、文字识别步骤;对文本图像进行识别后还应用阈值法,根据文本行的位置坐标进行对齐处理; 提取文本信息步骤如下: 设定Prompt,引导Macro-o1进行文本信息提取;文本信息包括:属性信息、关键字和摘要信息; 根据档案分类,基于领域内中文信息专门建立向量库,获取识别文本的向量簇并与向量库进行内积比较,确定分类名称;根据确定的分类名称,查找对应的分类信息,提取分类信息中的属性信息,输出文件所属的分类名以及对应的属性;分类信息中的属性信息包括:分类范围和分类期限; 获取识别文本向量簇的过程包括: 将识别文本的属性信息和摘要信息拼接成字符串,利用Jina-V3-Embedding模型对字符串进行编码,生成对应的向量表示,作为识别文本对应的向量簇。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人青岛方天科技股份有限公司,其通讯地址为:266199 山东省青岛市李沧区九水东路130-145号3号楼1906室;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励