北京理工大学史树敏获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉北京理工大学申请的专利一种基于记忆网络语义融合的长文档检索方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN113962228B 。
龙图腾网通过国家知识产权局官网在2026-03-03发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202111246473.6,技术领域涉及:G06F40/30;该发明授权一种基于记忆网络语义融合的长文档检索方法是由史树敏;朱乐;黄河燕设计研发完成,并于2021-10-26向国家知识产权局提交的专利申请。
本一种基于记忆网络语义融合的长文档检索方法在说明书摘要公布了:本发明涉及一种基于记忆网络语义融合的长文档检索方法,解决长文档检索中面临的如何在有限的输入中最大可能地保留并融合不同段落的语义表示的技术问题,属于信息检索技术领域。本方法利用预训练语言模型强大的上下文语义建模能力,丰富用户查询向量表示和候选文档向量表示的语义信息,更好地实现语义匹配。本方法使用记忆网络存储文档各分段的向量表示作为记忆单元,针对用户查询,利用注意力机制动态读取记忆单元,融合不同段落间的语义向量,能够有效从长文档中抽取相关信息,摆脱了序列模型的遗忘问题,提升了长文档任务下的用户检索质量。
本发明授权一种基于记忆网络语义融合的长文档检索方法在权利要求书中公布了:1.一种基于记忆网络语义融合的长文档检索方法,其特征在于,包括以下步骤: 步骤1:筛选出可能与用户查询相关的文档; 步骤1.1:对于给定的用户查询集合,过滤查询中的特殊字符,并对候选文档集合进行分段; 步骤1.2:对给定的每条用户查询,从所有候选文档中,按照相似度从大到小的顺序进行排名,并筛选出排名最大的前F个文档,作为下一阶段的候选文档集合; 步骤1.3:对给定的每条用户查询,在候选文档集合中挑选出对应的相关文档和不相关文档,分别作为正、负样本; 步骤2:对候选文档进行分段编码,将得到的每一个分段作为记忆网络的一个单元; 步骤3:使用预训练语言模型对用户查询进行编码,得到用户查询对应的语义向量表示; 步骤4:基于记忆网络的语义融合阶段,筛选不同存储单元与用户查询相关的部分; 利用注意力机制,计算用户查询与不同段落间的相似度,并以此为权重,将多个段落的语义向量表示融合在一起,得到该篇文档的语义向量表示: αi=simqk,pi1 其中,simq,pi为相似度函数,在第k次迭代中,衡量用户查询qk与文本第i个段落pi之间的相似度,其结果为αi;m为存储单元数目,Ok为第k次迭代得到的文档的语义向量表示; 相似度函数simq,p为:simq,p=vTtanhW[q;p],其中,v、W均为训练参数,tanh为激活函数,T为转置,q、p分别为用户查询向量与候选段落表示向量; 步骤5:更新用户查询向量; 通过结合步骤4得到的文本表示向量,丰富用户查询向量的语义,具体如下: 将用户查询qk与第k次迭代得到的文档的语义向量表示Ok融合在一起,输出更新后的文档向量: Ok+1=W1qk+W2Ok+b3 其中,Ok+1为第k+1次迭代得到的文档语义向量表示;W1为将qk映射到相同语义空间的线性项,W2为将Ok映射到相同语义空间的线性项,b为将qk、Ok映射到相同语义空间的偏差项;W1、W2、b均为学习参数; 将得到的文档语义向量表示Ok+1作为新的用户查询向量:qk+1=Ok+1; 步骤6:重复步骤4至步骤5,进行迭代更新,获得准确的用户查询信息; 步骤7:利用多层感知机模型,分别对候选文档中的正、负样本打分,并通过损失函数对模型参数进行训练; 步骤7.1:针对给定用户查询,多层感知机模型分别对正、负样本进行打分: spos=MLP[q;Opos]4 sneg=MLP[q;Onge]5 其中,spos、sneg分别是用户查询向量与正负样本间的相似度分数,Opos、Oneg分别代表相关文档和不相关文档的向量表示; MLP[q;O]为多层感知机模型,负责计算用户查询向量与候选文档向量之间的得分,q表示用户查询向量,O表示候选文档向量; MLP[q;O]将q、O拼接在一起后放入多层感知机,具体如下式所示: MLPq;O=sigmoidW2RELUW1[q;O]+b1+b26 其中,sigmoid、RELU均为激活函数,W1、W2、b1、b2均为学习参数; 步骤7.2:通过损失函数,对模型进行训练; 具体如下: 其中,Loss为模型预测样本相关性得分与样本实际相关性分数的差值,margin为损失函数阈值,N是样本总数; 步骤8:完成模型训练后,对给定用户查询,不再区分正、负样本,对候选文档集合的每个文档进行预测评分,并按分数从高至低进行排序,返回分数排序最高的前G个文档,作为最终的检索结果。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京理工大学,其通讯地址为:100081 北京市海淀区中关村南大街5号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励