安徽标信查数据技术有限公司崔从俊获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉安徽标信查数据技术有限公司申请的专利一种基于预训练大模型的文档要素快速抽取系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN121189458B 。
龙图腾网通过国家知识产权局官网在2026-03-06发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511520020.6,技术领域涉及:G06N5/025;该发明授权一种基于预训练大模型的文档要素快速抽取系统是由崔从俊;朱冠臣;陈志设计研发完成,并于2025-10-23向国家知识产权局提交的专利申请。
本一种基于预训练大模型的文档要素快速抽取系统在说明书摘要公布了:本发明提供了一种基于预训练大模型的文档要素快速抽取系统,涉及计算机软件应用技术领域,该系统包括:参数领域适配模块,用于将文档进行文本化处理,并基于文本化处理结果,构建行业标准语料库,利用行业标准语料库对预设的语言模型进行调整;动态文档分块模块,用于将行业标准文档进行语义分割处理,得到若干文本分块;实体对齐模块,用于对文本分块进行实体和关系提取,并结合均匀流形逼近与投影方法进行实体对齐;关系推理与知识图谱补全模块,用于对初步知识图谱进行补全处理,并将补全结果进行存储。本发明无需预先定义规则模板或进行数据标注,可直接提升要素抽取效率。
本发明授权一种基于预训练大模型的文档要素快速抽取系统在权利要求书中公布了:1.一种基于预训练大模型的文档要素快速抽取系统,其特征在于,该系统包括: 参数领域适配模块,用于将文档进行文本化处理,并基于文本化处理结果,构建行业标准语料库,利用行业标准语料库对预设的语言模型进行调整,得到调整后的语言模型; 动态文档分块模块,用于基于上下文感知的动态语义分块技术,将行业标准文档进行语义分割处理,得到若干文本分块; 实体对齐模块,用于对于每个文本分块,基于Prompt提示工程和调整后的语言模型,结合实体识别与关系抽取技术,进行实体抽取,得到实体字符串;利用预训练的自然语言处理模型,将每个实体字符串编码为预设维度的语义向量,得到实体嵌入向量;利用均匀流形逼近与投影算法对实体嵌入向量进行非线性降维,得到第二向量矩阵;基于分层密度聚类法,对第二向量矩阵进行聚类处理,得到若干同义实体簇,以实现实体对齐,得到实体对齐结果; 关系推理与知识图谱补全模块,用于根据实体对齐结果构建初步知识图谱,通过逻辑关系推理对初步知识图谱进行补全处理,并将补全结果进行存储。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人安徽标信查数据技术有限公司,其通讯地址为:230031 安徽省合肥市高新区合肥软件园二期F3栋15层;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励