重庆大学曾骏获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉重庆大学申请的专利一种基于句法对比学习的稠密检索方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115374251B 。
龙图腾网通过国家知识产权局官网在2025-07-25发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211087538.1,技术领域涉及:G06F16/334;该发明授权一种基于句法对比学习的稠密检索方法是由曾骏;陶泓锦;王子威;钟林;高旻;文俊浩设计研发完成,并于2022-09-07向国家知识产权局提交的专利申请。
本一种基于句法对比学习的稠密检索方法在说明书摘要公布了:本发明涉及一种基于句法对比学习的稠密检索方法,包括如下步骤:选用公开文档检索数据集,数据集包括查询Query和正段落Passage+,将一一对应的一组Query和Passage+作为一个训练样本;从数据集中选取部分样本作为训练集C;构建稠密检索模型SynC,SynC包括一个双编码器模型和两个预训练模型,两个预训练模型分别为EncoderQ和EncoderP;所述双编码器模型包括编码器DualEncoderQ和编码器DualEncoderP;遍历所有样本,计算得到训练集C中每个训练样本对应的Eq、cq和cp;最后计算SynC的总损失,对SynC进行训练,利用总损失函数反向更新SynC参数,当训练达到最大迭代次数时停止训练,得到训练好的SynC。使用本发明SynC模型对未知查询进行稠密检索,可以提高稠密检索结果的准确性与训练效率。
本发明授权一种基于句法对比学习的稠密检索方法在权利要求书中公布了:1.一种基于句法对比学习的稠密检索方法,其特征在于:包括如下步骤: S100:选用公开文档检索数据集,数据集包括查询Query和正段落Passage+,其中,Query和正段落Passage+一一对应,且将对应的一组Query和Passage+作为一个训练样本; S200:从数据集中选取部分样本作为训练集C; S300:构建稠密检索模型SynC,SynC包括一个双编码器模型和两个预训练模型,两个预训练模型分别为EncoderQ和EncoderP; 所述双编码器模型包括编码器DualEncoderQ和编码器DualEncoderP; S310:随机从C中选取一个训练样本t,应用BM25方法对t进行处理,得到对应t的4个最相关的负段落,记为Passage-; 对t中的Query执行句法掩码策略得到掩码后的查询QueryMasked;对t中的Passage+执行句法掩码策略得到掩码后的正段落 S320:使用双编码器模型将t中的Query映射到d维的表征空间,得到t的查询表征矩阵Eq;使用双编码器模型将t中的Passage+映射到d维的表征空间,得到t的正段落表征矩阵使用双编码器模型将t对应Passage-映射到d维的表征空间,得到t的负段落表征矩阵 S330:使用EncoderQ对QueryMasked执行编码和掩码策略得到掩码后的查询cq;使用EncoderP对执行编码和掩码策略得到掩码后的正段落cp; S400:重复S310-S330,计算得到训练集C中每个训练样本对应的Eq、cq和cp; S500:计算SynC的总损失,表达式如下: LossTOTAL=αLossqp+βLossqq+γLosspp;1 其中,LossTOTAL表示总损失函数,α、β、γ表示损失系数,Lossqp表示查询-段落损失,Lossqq表示查询-查询损失,Losspp表示段落-段落损失; S600:设置训练最大迭代次数并对SynC进行训练,利用LossTOTAL损失函数通过梯度下降法反向更新SynC参数,当训练达到最大迭代次数时停止训练,得到训练好的SynC; S700:将待预测查询Q’作为训练好的SynC的数据输入,输出为对查询Q’的稠密检索结果。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人重庆大学,其通讯地址为:400044 重庆市沙坪坝区沙正街174号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。