北京中科智加科技有限公司迟雨桐获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉北京中科智加科技有限公司申请的专利一种管道式多事件抽取模型的构建方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116028812B 。
龙图腾网通过国家知识产权局官网在2025-07-01发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211733205.1,技术领域涉及:G06F40/279;该发明授权一种管道式多事件抽取模型的构建方法是由迟雨桐;冯少辉;张建业设计研发完成,并于2022-12-30向国家知识产权局提交的专利申请。
本一种管道式多事件抽取模型的构建方法在说明书摘要公布了:本发明涉及一种管道式多事件抽取模型的构建方法,属于自然语言处理技术领域,解决了现有的事件抽取模型在语料中存在较多事件或多事件重叠的情况下容易出现识别缺漏、事件要素无法匹配,导致准确率低的问题。通过基于原始数据集构建得到事件特征数据集合,并进一步构建得到包含事件类型、事件要素的正、负样本的训练集,再使用训练集对T5模型进行训练,使模型有效地学到了各事件类型、事件角色、事件要素以及触发词之间的内在联系,尤其提高了模型对于多事件的理解和预测能力,整体训练过程使用提示信息prompt的方法,一定程度上保证了抽取准确率和忠诚度,得到了对事件文本具有较高识别率的事件抽取模型。
本发明授权一种管道式多事件抽取模型的构建方法在权利要求书中公布了:1.一种管道式多事件抽取模型的构建方法,其特征在于,包括如下步骤: 获取已标注的文本数据作为原始数据集; 基于原始数据集获得事件特征数据集合,并进一步构建事件类型正样本数据集D+1、事件要素正样本数据集D+2、事件类型全负样本数据集D-1和事件要素随机负样本数据集D-2,最终得到模型训练数据集Dall; 使用训练数据集Dall对T5模型进行训练,得到训练好的管道式多事件抽取模型Mtrained; 在多事件抽取时,逐步构建每一步的预测样本集合,所述训练好的模型Mtrained用于基于每一步的预测样本集合得到每一步的预测结果,整合得到最终的抽取结果; 所述模型训练数据集Dall,通过以下步骤构建得到: 对原始数据集的标注信息进行汇总整理,获得事件类型与所有事件角色的对应关系schema、事件类型与单个事件角色的对应集合Stype_role以及所有事件类型集合Stype三种事件特征数据集合; 使用原始数据集和数据集schema构建事件类型正样本数据集D+1和事件要素正样本数据集D+2,以及原始数据集中出现的所有触发词集合Strigger和所有事件要素集合Sargument两种事件特征数据集合; 使用事件类型正样本数据集D+1和事件类型数据集Stype构造事件类型全负样本数据集D-1; 使用事件要素正样本数据集D+2、触发词集合Strigger、事件要素集合Sargument和事件类型与单个事件角色的对应集合Stype_role构建事件要素随机负样本数据集D-2; 将D+1、D+2、D-1、D-2混合打乱,最终得到模型训练数据集Dall; 所述事件类型正样本数据集D+1和事件要素正样本数据集D+2,通过以下步骤构建得到: A1.提取原始数据集文本数据text_p所包含的某一事件对应的事件类型etype,触发词wtrigger,事件角色erole_1~erole_n,对应的事件要素warg_1~warg_n,n为该事件包含的事件角色数;构建该事件的事件类型正样本的输入为text_p+etype+“触发词”,输出为wtrigger;构建该事件的事件要素正样本的输入为text_p+promptarg,输出为warg_1~warg_n;其中,事件要素提示promptarg可用下式获得: A2.对文本数据text_p中的每个事件使用1中方法构建事件类型正样本和事件要素正样本,得到事件类型正样本数据集D+1和事件要素正样本数据集D+2; 所述事件类型全负样本数据集D-1通过以下步骤构建得到: B1.将某一事件类型正样本的etype依次换成事件类型数据集Stype中的该事件的其他事件类型,目标输出都为空,得到该事件的事件类型全负样本; B2.对事件类型正样本数据集D+1中所有事件都使用1的方法,构建得到事件类型全负样本数据集D-1; 所述事件要素随机负样本数据集D-2通过以下步骤构建得到: 1在D+2中找出某一事件所有事件要素正样本,从事件要素正样本中找出所有事件要素提示promptarg,组成集合Sprompt; 2从Strigger中随机选取一个触发词,得到wtrigger_random;从Stype_role中随机选取一个元素,得到一个事件类型etype_random,一个事件角色erole_random以及该事件角色所处位置p; 3从事件要素集合Sargument中随机选取p个事件要素,得到warg_r_1~warg_r_p,按如下格式组合得到事件要素随机提示promptarg_random; promptarg_random=etype_random+wtrigger_random+warg_r_1+…+warg_r_p+erole_random 4判断promptarg_random是否存在于Sprompt中,若存在则重复步骤2、3、4,若不存在则使用promptarg_random构建负样本,并将promptarg_random加入Sprompt; 5重复步骤1~4直至得到5n个事件要素随机负样本; 6对D+2中所有事件样本都使用1~5中方法构建得到事件要素随机负样本数据集D-2; 所述逐步构建每一步的预测样本集合,包括: 基于待抽取文本text、事件特征数据集合构建第一步预测样本集合Dstep_1; 基于待抽取文本text,事件特征数据集合和前一步模型Mtrained的预测结果构建提示信息prompt,以text+prompt结构构建下一步模型的预测样本集合,实现按步依次构建第2~n+1步预测样本集合Dstep_2~Dstep_n+1; 所述训练好的模型Mtrained用于基于每一步的预测样本集合得到每一步的预测结果,整合得到最终的抽取结果,包括: 将Dstep_1输入模型Mtrained,得到第一步预测结果文本text中包含的所有触发词ptrigger; 以格式text+prompt_X构建第2~n+1步预测样本集合Dstep_2~Dstep_n+1,将Dstep_x输入模型Mtrained,得到每一个触发词对应事件类型的第x-1事件角色对应的第x-1事件要素其中x∈[2,n+1];其中prompt_X表示为: 将最后一步的提示信息与抽取结果组合得到完整的事件。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京中科智加科技有限公司,其通讯地址为:100083 北京市海淀区学院路51号10层1010、1011室;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。