哈尔滨工业大学易志伟获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉哈尔滨工业大学申请的专利一种结合生成式语言模型与语义文档图谱的多文档问答检索方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119903190B 。
龙图腾网通过国家知识产权局官网在2025-07-29发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411728000.3,技术领域涉及:G06F16/36;该发明授权一种结合生成式语言模型与语义文档图谱的多文档问答检索方法是由易志伟;张柏林;涂志莹;初佃辉设计研发完成,并于2024-11-28向国家知识产权局提交的专利申请。
本一种结合生成式语言模型与语义文档图谱的多文档问答检索方法在说明书摘要公布了:本发明公开了一种结合生成式语言模型与语义文档图谱的多文档问答检索方法,所述方法进一步完善和优化了文档知识图谱的构建与遍历方式,分别设计基于bert类模型去构建图谱构建,设计KGP3算法优化检索遍历方式。在图谱遍历过程中,结合主问题及已获得节点,生成涉及下一个需要节点信息的子问题,从邻居节点中精确挑选出最合适的文档节点,并判断该节点与初始问题的相关性,若不相关,则不列入后续检索列表。这种方法不仅高效且具备可追溯性和可解释性,同时抽象概括了模型在图谱遍历中选择下一跳节点的整体过程。为了降低成本,还对小型编码器‑解码器T5模型进行了改进,并在该模型中引入对比学习机制,进一步提升了小型模型的检索性能。
本发明授权一种结合生成式语言模型与语义文档图谱的多文档问答检索方法在权利要求书中公布了:1.一种结合生成式语言模型与语义文档图谱的多文档问答检索方法,其特征在于所述方法包括如下步骤: 步骤1、文档型知识图谱的构建: 步骤1.1、文档库获取:获取一个包含某个领域大量相关文档的文档库; 步骤1.2、文本切割:在获取到文档库后,对文档进行分词处理,将文档分割为一个个独立的文块; 步骤1.3、基于预训练语言模型对文档块进行嵌入:使用预训练语言模型,提取每个文档块的语义特征; 步骤1.4、计算相似度:基于文档块嵌入向量计算文块间的相似度,形成边,对于每个文档节点基于相似度阈值和top-k算法连接邻居文档节点,形成文档知识图谱; 步骤2、基于生成式语言模型的文档知识图谱多跳检索生成式问答: 步骤21、生成初始候选集:以用户的问题作为查询条件,在步骤1获取的文档库中进行TF-IDF算法搜索,得到一组与之相关的节点,即初始候选集; 步骤22、迭代扩展文档集: 步骤221、遍历初始节点集合:遍历步骤21生成的初始候选集中的每一个节点,并将其作为当前路径的初始节点; 步骤222、问题与已检索到的节点输入生成式语言模型:将问题以及当前路径上的节点信息输入到生成式语言模型中,基于KGP3算法得到文档知识图谱多跳问答,具体步骤如下: (1)生成子问题:结合主问题以及已经获得的节点生成一个子问题涉及下一个需要的节点包含的信息; (2)根据生成的子问题拿到下一跳节点:使用生成的子问题进一步在步骤1构建的文档型知识图谱中检索新的节点,这些节点即为下一步要访问的目标; (3)对所选节点的相关性进行判断:如果节点的相关性被判断为“支持”或"模糊",则将该节点加入到当前路径中,并基于此节点继续进行下一跳的选择;如果节点的相关性被判断为“拒绝”,则跳过当前节点,继续遍历初始节点集合;支持:表示当前节点在回答查询时高度支持种子节点,模糊:表示当前节点在一定程度上支持种子节点,拒绝:表示对于主问题没有任何有价值的信息; (4)判断当前路径长度是否到达阈值:检查当前路径的长度是否达到了预先设定的阈值,如果未达到阈值,则继续执行步骤(1)至步骤(3);如果达到阈值,则将当前路径的文档加入到已检索文档集合中; (5)判断初始节点集合是否遍历完:检查初始节点集合是否已经被完全遍历,如果尚未遍历完,继续遍历初始节点集合;如果遍历完毕,则结束整个检索过程,得到检索文档集合; 步骤23、经过步骤21和步骤22后,对检索得到的文档集合进行去重后处理步骤,得到最终的检索文档集合,并入用户问题一并输入生成式语言模型得到答案回复。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人哈尔滨工业大学,其通讯地址为:150001 黑龙江省哈尔滨市南岗区西大直街92号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。