中国科学院软件研究所刘方超获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉中国科学院软件研究所申请的专利基于多选匹配网络的统一低样本关系抽取方法及装置获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114528400B 。
龙图腾网通过国家知识产权局官网在2026-03-17发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210083731.1,技术领域涉及:G06F16/35;该发明授权基于多选匹配网络的统一低样本关系抽取方法及装置是由刘方超;林鸿宇;韩先培;孙乐设计研发完成,并于2022-01-21向国家知识产权局提交的专利申请。
本基于多选匹配网络的统一低样本关系抽取方法及装置在说明书摘要公布了:本发明公开一种基于多选匹配网络的统一低样本关系抽取方法及装置。该方法包括:基于预训练语言模型和多选标记的关系描述与关系实例共同编码和匹配机制;基于大规模纯文本的开放信息抽取得到的三元组以及通过生成式预训练语言模型生成的复述文本,以及基于此进行的三元组‑复述预训练方式;基于新任务下小样本的在线元学习训练方式。本发明的基于多选匹配网络的机制能够统一建模低样本关系抽取任务中的各类场景,并提供高效快速的网络架构,使得模型更加符合实际应用中对模型性能和速度的多重要求。
本发明授权基于多选匹配网络的统一低样本关系抽取方法及装置在权利要求书中公布了:1.一种基于多选匹配网络的统一低样本关系抽取方法,其特征在于,包括以下步骤: 将当前任务的所有关系描述拼接成一条多选语句; 将待分类实例与多选语句合并,共同输入多选匹配网络的编码器中; 将编码器编码后的待分类实例的表示与多选语句中每个关系的表示进行匹配,将相似度最大的关系作为预测结果,得到关系抽取结果; 采用基于三元组-复述的预训练方法,通过以下步骤训练所述多选匹配网络: a在大规模开放域文本中,通过OpenIE工具抽取得到主语,谓语,宾语三元组,三元组的每个部分均为原文本中的文本片段; b将抽取得到的大量三元组,通过预训练好的生成式语言模型,生成包含三元组语义的对应的复述文本; c提取三元组中的谓语作为对应生成的复述文本的关系描述,并通过负采样策略,为每个实例采样多个负例关系,按照多选匹配的方式进行关系预测和抽取,并计算关系抽取的损失函数;基于得到的大量复述文本和三元组进行多选匹配网络的预训练,每轮训练随机采样N个三元组-复述对,将N个三元组中的谓词作为关系描述,构成包含N个关系类别的新抽取任务,按照多选匹配网络的方式拼接成多选语句,随后将每个复述文本与该多选语句进行拼接输入多选匹配网络中,得到对应的抽取结果,并根据实际对应的谓词计算多选匹配网络的损失函数: 其中,为待学习的模型参数,为三元组-复述对,为指示函数,当为该复述文本x对应的谓词时为1,否则为0;为包含所有关系信息的多选语句;表示第i个关系类别,N表示上文所提关系类别数量,表示当前复述实例x属于关系的概率; d对于每个包含少量标注样本的新任务,利用少量标注样本的标签计算多选匹配网络输出的关系抽取结果的损失函数,通过在线学习的方式进行多选匹配网络的模型更新; 所述多选匹配网络的处理过程包括: 对任意新关系抽取任务,先将其所有目标关系通过“[choice]”特殊标识符分割串联起来,作为每个查询实例的多选语句;对于每个待分类的查询实例,将其中的头实体和尾实体分别用“[e1][e1]”和“[e2][e2]”插入两侧标记与其他字符进行区分,并将处理完的实例拼接在多选语句之后; 将该处理后的实例输入多选匹配网络中的编码器模块中进行编码;经过编码后,将头尾实体的表示平均后作为整个实例的表示: 其中和分别为头实体和尾实体经编码后的表示向量; 将多选语句中特殊标识符“[choice]”的表示作为每个候选关系的表示,将候选关系表示分别与实例表示计算相似度: 其中D.为距离函数,为候选关系的表示,并通过相似度计算每个关系类别的概率: 其中为模型参数,N为关系类别数量,为包含所有关系信息的多选语句,表示第i个关系类别,表示当前复述实例x属于关系的概率;最后选择相似度最高的关系作为预测结果,输出关系抽取结果: 。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中国科学院软件研究所,其通讯地址为:100190 北京市海淀区中关村南四街4号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励