江淮前沿技术协同创新中心朱晓俊获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉江淮前沿技术协同创新中心申请的专利基于大语言模型的文档级知识抽取与融合方法、系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119358546B 。
龙图腾网通过国家知识产权局官网在2025-06-17发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411561355.8,技术领域涉及:G06F40/279;该发明授权基于大语言模型的文档级知识抽取与融合方法、系统是由朱晓俊;梁斌;刘厚德;汪鹏;梁论飞;兰斌设计研发完成,并于2024-11-04向国家知识产权局提交的专利申请。
本基于大语言模型的文档级知识抽取与融合方法、系统在说明书摘要公布了:本发明提供基于大语言模型的文档级知识抽取与融合方法、系统,属于工业机器人领域,包括:确定所需关键信息范围并建立关键字字典;根据关键字字典对文档级的非结构化数据按段落进行划分,得到划分后的子文档;使用生产者-消费者模式集成大模型的异步架构搭建软件系统,利用软件系统依次对划分后的子文档进行知识抽取任务,从子文档的非结构化数据中提取关键信息;将同一篇子文档中抽取出的所有关键信息整合、归类得到规整的数据,再对规整的数据进行知识融合处理;段落间的关联程度配合关键字字典对文档划分,划分后子文档内容高度聚合,降低大模型处理复杂文档的难度,在大模型中集成生产者-消费者模式,避免系统阻塞,提升系统并发处理能力。
本发明授权基于大语言模型的文档级知识抽取与融合方法、系统在权利要求书中公布了:1.基于大语言模型的文档级知识抽取与融合方法,其特征在于:方法包括: S1、确定所需关键信息范围并建立关键字字典; S2、根据关键字字典对文档级的非结构化数据按段落进行划分,得到划分后的子文档;S2中基于关键字匹配结果和段落间结构关系计算段落之间的关联度,包括: 2.4.1、段落和段落中的关键字集合分别为、,关键字k在段落、段落中的权重、为: , 其中,、分别表示关键字k在段落、段落中的出现频率,、分别表示段落、段落中所有关键字的出现频率总和; 2.4.2、基于领域内关键字的重要性,对关键字的权重进行修正,修正后的关键字k在段落、段落中的权重、分别为: , 2.4.3、基于关键字修正后的权重,计算段落和段落的相似度: 2.4.4、计算段落和段落之间的结构关系权重: 2.4.5、基于段落、段落的相似度和结构关系权重,计算段落和段落之间的关联度: 其中,为关键字k的领域重要性权重,为加权参数; S3、使用生产者-消费者模式集成大模型的异步架构搭建软件系统,利用软件系统依次对划分后的子文档进行知识抽取任务,从子文档的非结构化数据中提取关键信息; S4、将同一篇子文档中抽取出的所有关键信息整合、归类得到规整的数据,再对规整的数据进行知识融合处理。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人江淮前沿技术协同创新中心,其通讯地址为:230088 安徽省合肥市高新区望江西路920号中安创谷科技园二期H3、H4、H5、H6、H7、H8;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。