Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 哈尔滨工业大学(威海)易志伟获国家专利权

哈尔滨工业大学(威海)易志伟获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉哈尔滨工业大学(威海)申请的专利一种用于多跳问答检索模型的数据增强及训练方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119669755B

龙图腾网通过国家知识产权局官网在2025-07-01发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411728003.7,技术领域涉及:G06F18/214;该发明授权一种用于多跳问答检索模型的数据增强及训练方法是由易志伟;张柏林;涂志莹;初佃辉设计研发完成,并于2024-11-28向国家知识产权局提交的专利申请。

一种用于多跳问答检索模型的数据增强及训练方法在说明书摘要公布了:本发明公开了一种用于多跳问答检索模型的数据增强及训练方法,包括如下步骤:步骤1、获取一个多跳问答数据集,该数据集由多跳问题及其对应的文档集合组成,文档集合包括第一跳检索文档、第二跳检索文档以及其他相关文档;步骤2、对文档集合中的第一跳文档、第二跳文档进行正例去噪,得到去噪后的文档用作模型训练的新正例,文档其他残余部分作为训练补充负例;步骤3、将得到的数据输入到多跳问答预训练语言模型进行训练。本发明提出了一种基于命题子句的正例去噪策略,通过将命题子句作为中间步骤,显著减少文档段落中与问题无关的信息干扰,从而提高模型对相关信息的捕获精度和效率。这一策略增强了模型在多跳推理任务中的准确性和鲁棒性。

本发明授权一种用于多跳问答检索模型的数据增强及训练方法在权利要求书中公布了:1.一种用于多跳问答检索模型的数据增强及训练方法,其特征在于所述方法包括如下步骤: 步骤1、获取一个多跳问答数据集,该数据集由复杂的多跳问题及其对应的文档集合组成,这些文档集合包括第一跳检索文档、第二跳检索文档以及其他相关文档; 步骤2、对文档集合中的第一跳文档、第二跳文档进行正例去噪,得到去噪后的文档用作模型训练的新正例,文档其他残余部分作为训练补充负例,具体步骤如下: 步骤21、利用大型语言模型及提示工程技术对文档集合中的第一跳文档和第二跳文档进行命题子句抽取,得到对应的命题子句候选集合; 步骤22、根据多跳问题,对候选集合中的每个命题子句分别利用BERTScore计算语义相似度得分并进行降序排序,得到排序后的命题子句候选集合; 步骤23、设定保留百分比α,保留TopK个命题子句,将TopK个命题子句按原语序拼接,得到去噪后的正例文本; 步骤3、将步骤2得到的数据输入到多跳问答预训练语言模型进行训练,具体步骤如下: 步骤31、基于Bert的文本嵌入模型,将第一跳文档、第二跳文档、负例文档转换为相应的文本嵌入向量; 步骤32、设计多跳问答预训练语言模型 步骤321、选取MDR模型作为基线模型; 步骤322、引入基于命题子句的正例去噪策略,命题子句被定义为文本中的原子表达式,每个命题都包含一个独立的事实或信息点,正例去噪的过程如下:首先,利用命题抽取模型从单个文本段落中识别并提取出多个命题集合,接着,针对集合中的每一个命题,计算其与给定问题q与相关的支持文档的语义相关性得分; 步骤323、引入超参数a,用于控制保留命题数量与总命题数量之间的比例,根据超参数a,选择在这个比例范围内的命题保留下来,这些命题将按照它们在原始文本中的顺序重新拼接,将与答案相关的命题也纳入保留集合,剩下的命题集合=P\被用于生成额外的负例样本,P是单个文档经命题抽取模型后得到的命题集合; 步骤33、将步骤31得到的数据输入到步骤32设计的多跳问答预训练语言模型中进行训练。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人哈尔滨工业大学(威海),其通讯地址为:264209 山东省威海市文化西路2号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。