燕山大学冯建周获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉燕山大学申请的专利一种使用两阶段检索的文本多跳推理问答方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116383347B 。
龙图腾网通过国家知识产权局官网在2025-08-15发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211104039.9,技术领域涉及:G06F16/3329;该发明授权一种使用两阶段检索的文本多跳推理问答方法是由冯建周;王琴;徐甘霖设计研发完成,并于2022-09-09向国家知识产权局提交的专利申请。
本一种使用两阶段检索的文本多跳推理问答方法在说明书摘要公布了:本发明公开了一种使用两阶段检索的文本多跳推理问答方法,及自然语言处理技术领域,方法包括两个模块。首先,在上下文感知知识检索器模块中,使用具有掩码机制的双编码器框架进行预训练,再将学习到的假设和知识的表示基于句子级密集检索获得候选核心知识。其次,在实体感知知识验证模块中,通过实体级稀疏矩阵确定假设和知识的可达性,将用于进一步验证核心知识和假设之间是否存在支撑关系。本方法将上下文感知和实体感知的知识检索方法结合应用到推理过程中,改进以实体为中心的推理的盲目性,使模型同时考虑假设和知识之间的上下文语义匹配和实体概念影响。在需要复杂多跳的科学问答领域中,具有明显的性能优势。
本发明授权一种使用两阶段检索的文本多跳推理问答方法在权利要求书中公布了:1.一种使用两阶段检索的文本多跳推理问答方法,其特征在于,包括以下步骤: S1、将问题q和每个答案选项a={a1,a2,...,aM}进行拼接,得到假设集合h={h1,h2,...,hM},其中,M是问题的选项数,将原形式下使用标志位将问题q和答案选项a进行简单拼接的多项选择问答问题转换为文本蕴含问题; S2、将外部文本知识库中的领域理论知识划分为核心知识集合E和背景知识集合G,其中,核心知识ee∈E表示问题考察的核心思想,背景知识gg∈G表示用于解决问题的辅助知识; S3、在第一阶段上下文感知知识检索器模块中,将正确答案对应的假设hi称为正确假设并将支撑正确假设成立的核心知识e称为正确核心知识分别将掩盖部分实体概念的所有正确假设和其对应的正确核心知识输入到上下文感知知识检索器模块中的双编码器模型中;结合对比学习的思想,将同批训练中的其他问题的正确假设所对应的正确核心知识作为负相关知识训练后得到正确假设与正确核心知识之间的映射关系; 所述步骤S3包含以下步骤: S3.1、使用SpaCy文本处理工具,抽取出背景知识G中的所有名词及名词短语作为实体;对于工具抽取时的噪声,在分析实体出现频率和实体含义后进行半自动降噪,构成实体词表; S3.2、根据实体词表选取出正确假设中的实体,并随机掩盖一定比例的实体,将正确假设输入到双编码模型中的问题假设编码器中,同时将其对应的正确核心知识输入到双编码器模型中的知识编码器中,通过余弦相似度计算两者的距离; S3.3、将同批训练中的其他问题的正确假设对应的核心知识作为负相关知识将损失函数优化为正确核心知识的负对数似然值,损失函数如下: S4、将所有核心知识e输入到双编码模型中的知识编码器中,输出核心知识e的语义表征向量;再将假设hi输入到双编码器模型中的问题假设编码器中,得到假设hi的语义表征向量,通过与所有核心知识e的表征向量进行余弦相似度检索,得到支撑假设hi的候选核心知识池和问题q对应的候选核心知识池同时得到候选核心知识池中核心知识与假设hi之间的上下文语义匹配得分; S5、在第二阶段实体感知知识验证模块中,构建背景知识集合G中实体之间的可达性矩阵,通过Kuhn-Munkres算法对假设hi中的实体和候选知识池中核心知识的实体之间进行可达性计算,得到核心知识ej和假设hi之间的实体匹配得分; 所述步骤S5包括:先抽取背景知识G中的实体,并通过BFS算法构建实体之间的可达性矩阵P,再抽取候选知识池中核心知识ej和假设hi中的实体,计算假设hi中的实体和候选知识池中核心知识ej的实体之间的可达分数,可达性分数计算如下: 其中,Ici,cj表示实体i能否到达实体j的符号函数,|pathi,j|表示两实体所经过的路径长度;Th是假设h的特殊实体集合,其中特殊实体是指在同一问题的所有假设中不同时出现的实体,Scj,Th是实体j是否属于特殊实体集合的符号函数;为防止除数为0,添加了超参数ε;是核心知识句中的第i个实体,是假设句中的第j个实体;在得到假设句中实体集和核心知识中的实体集之间的可达分数后,使用Kuhn-Munkres算法得到核心知识ej和假设hi之间实体验证的分数KMhi,ej; S6、将上下文感知知识检索器模块和实体感知知识验证模块得到的分数进行加权求和;对于含M个选项的问题q中的第i个假设hi,将得分最高的候选核心知识作为假设hi的预测核心知识,将得分最高的假设预测为问题的最终答案,并对双编码器模型进行微调,通过优化器最小化损失值。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人燕山大学,其通讯地址为:066004 河北省秦皇岛市海港区河北大街438号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。