北京科技大学张晓冬获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉北京科技大学申请的专利基于图谱增强生成的专利大模型问答系统的构建方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119396966B 。
龙图腾网通过国家知识产权局官网在2025-11-18发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411322178.8,技术领域涉及:G06F16/3329;该发明授权基于图谱增强生成的专利大模型问答系统的构建方法是由张晓冬;何玉设计研发完成,并于2024-09-23向国家知识产权局提交的专利申请。
本基于图谱增强生成的专利大模型问答系统的构建方法在说明书摘要公布了:本发明涉及一种基于图谱增强生成的专利大模型问答系统的构建方法,采取增量式预训练策略,将大量专利摘要文本融入LLM的学习过程中,在后续的问答交互中能更精准地调用和生成相关内容。为了进一步将文本续写型LLM改造为适合执行精确问答任务的形式,并提升其对特定指令的理解与遵循程度,运用指令微调技术,以海量指令数据集对模型进行了针对性优化,经过调整后的LLM能够精准满足用户所需的知识解答需求。
本发明授权基于图谱增强生成的专利大模型问答系统的构建方法在权利要求书中公布了:1.一种基于图谱增强生成的专利大模型问答系统的构建方法,其特征在于其包括如下步骤: S01:增量预训练,选用Intern2-1.8b-base模型,运用专利摘要作为数据集进行增量预训练; S02:指令微调,在专利领域问答场景下,LLM被应用于处理与专利相关的问题,该场景需要从专利知识图谱中精准召回与问题密切相关的三元组信息,为确保模型能有效理解这些结构化的三元组文本,采用指令微调方式引导模型理解与三元组相关的指令;利用Qwen-72b模型构建专利指令微调数据,包含问题、三元组和答案,用于训练大模型使用专利知识图谱三元组来进行专利问答; S03:检索增强生成,利用专利知识图谱,采用向量召回的方式,获取与用户问题最相关的三元组,进而注入用户问题,让大模型获取专利知识,生成答案; 在指令微调数据库构建时,利用Cypher查询语言从专利知识图谱中随机抽取每类关系下的三元组实例,针对抽取的三元组使用Qwen-27B-chat模型分别针对主体、关系及客体各生成一个问题,而该三元组对应的每个组成部分则构成了相应问题的答案,则每条三元组就生成了3个问题-答案对,经过数据清洗后获取相应的训练集、验证集和测试集; 在检索增强生成过程中,利用编码技术对专利知识图谱中的各个三元组进行编码存储,当用户提问时,对问题进行相同的编码处理,并运用相似度匹配算法搜寻与提问最贴切的三元组,随后系统将匹配到的三元组与原始问题合并为新的问题输入,进而在LLM中引导生成回答内容;在进行相似度匹配计算之前,将知识图谱中结构化的三元组信息与用户提出的自然语言问题映射至同一连续向量空间; 采用基于模板的三元组转译方法,将三元组数据转化为非结构化的文本内容;所述三元组转译方法包括:构建模板体系,将每个三元组结构转换为可理解的文本表述形式;在构建模板时纳入主体与客体实体类信息,具体为将实体类别文本后缀于实体之后,以确保转换后的文本充分反映原三元组的内在语义特征;对于不同关系类型,采用ChatGPT来获取对应关系的近义词汇集合,从而创建出一系列描述同一关系的不同方式,在构建实例时,随机选取该集合中的一个关系表述词语融入模板生成的文本中;完成三元组到文本的转化后,对这些文本进行向量化处理:采用BGE编码技术,将文本信息转化为高维向量表示,从而构建全面覆盖的三元组向量集合。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京科技大学,其通讯地址为:100083 北京市海淀区学院路30号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励