哈尔滨工业大学张伟男获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉哈尔滨工业大学申请的专利开放域对话领域以知识为中心的回复筛选方法及其系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119322824B 。
龙图腾网通过国家知识产权局官网在2025-10-14发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202410564432.9,技术领域涉及:G06F16/3329;该发明授权开放域对话领域以知识为中心的回复筛选方法及其系统是由张伟男;马龙轩;刘挺设计研发完成,并于2024-05-09向国家知识产权局提交的专利申请。
本开放域对话领域以知识为中心的回复筛选方法及其系统在说明书摘要公布了:本发明属于自然语言处理中的人机对话技术领域,具体涉及一种开放域对话领域以知识为中心的回复筛选方法及其系统。步骤1、利用现有的对话数据以及百科知识数据构建所需训练数据,构造伪数据算法;步骤2、利用步骤1构造的训练集对BERT模型进行三阶段训练;步骤3、在测试时,使用步骤2三阶段的得分之和作为最终评分。本发明用以解决现有非结构化知识增强方法存在的知识筛选准确率低以及知识筛选结果与筛选到的回复不一致的问题。
本发明授权开放域对话领域以知识为中心的回复筛选方法及其系统在权利要求书中公布了:1.一种开放域对话领域以知识为中心的回复筛选方法,其特征在于,所述回复筛选方法包括以下步骤: 步骤1、利用现有的对话数据以及百科知识数据构建所需训练数据,构造伪数据算法; 步骤2、利用步骤1构造的训练集对BERT模型进行三阶段训练; 步骤3、在测试时,使用步骤2三阶段的得分之和作为最终评分; 所述步骤1构建所需训练数据具体为,根据数据集ζ中的对话数据建立映射关系G1Q,K,G2K,R和G3K,H,Q,R具体为, 数据集为数据集ζ中的第i条对话数据,N代表数据集ζ中包含对话数据的总条数,其中,Di代表第i条对话数据中的文档,表示文档中的第1条知识条目,表示文档中的第2条知识条目,表示文档中的第di条知识条目,di代表Di中知识条目的条数,Ci代表第i条对话数据中除回复之外的对话上文,代表Ci中的第1轮对话,代表Ci中的第2轮对话,代表Ci中的第ci轮对话,ci代表Ci中对话的轮数,Ri表示对于Ci的回复,yi=1代表Ri为Ci的正确回复,yi=0代表Ri不是Ci的正确回复; 将对话上文Ci中最后一轮对话定义为第i条对话数据的查询Qi,将对话上文Ci中除最后一轮对话外的其他轮次定义为第i条对话数据的对话历史根据数据集ζ建立映射关系G1Q,K,G2K,R和G3K,H,Q,R; 其中,Q为查询,K为知识条目,H为对话历史,R为回复; 所述步骤1还包括根据建立的映射关系构造训练集,具体为, 步骤1.1、映射关系G1Q,K代表知识条目与查询的相关性,将Q,K作为训练集的输入,将相关性分数G1Q,K作为对应的输出; 步骤1.2、映射关系G2K,R代表知识条目与回复的相关性,将K,R作为训练集的输入,将相关性分数G2K,R作为对应的输出; 步骤1.3、映射关系G3K,H,Q,R代表知识条目、对话历史、查询与回复的相关性,将K,H,Q,R作为训练集的输入,将相关性分数G3K,H,Q,R作为对应的输出; 所述步骤1中构建构造伪数据算法具体为, 输入:Reddit数据DR;Wikipedia数据Dw;阈值γ; 输出:伪DGD数据Dp; 1:初始化Dp为空集; 2:对DR数据中的每一组对话上文C和回复R,进行3—6的操作; 3:使用BM25算法计算回复与Wikipedia数据Dw中每个知识条目的相似度 4:如果相似度分数大于阈值γ; 5:则将找到的知识条目与C和R组成一组,放入Dp中; 6:在遍历完DR中的数据后,得到伪数据Dp; 所述步骤2具体为,为文档D、对话数据C以及回复R分别定义段嵌入编码,将位于输入序列开始部分的特殊标志符[CLS]的最后一层隐状态表示记为Ecls,Ecls经过两层非线性层后,输出相关性分数Ginput: Ginput=σW2μW1Ecls+b1+b2 其中,W1,W2,b1,b2是可训练的参数,σ代表sigmoid激活函数,μ代表tanh激活函数;在三个相关性任务中,都使用同一个BERT模型进行训练,相关性分数的计算均利用上述公式。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人哈尔滨工业大学,其通讯地址为:150001 黑龙江省哈尔滨市南岗区西大直街92号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励