中国科学院计算技术研究所程学旗获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉中国科学院计算技术研究所申请的专利基于三元组森林的实体关系联合抽取方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115687638B 。
龙图腾网通过国家知识产权局官网在2025-11-25发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211199819.6,技术领域涉及:G06F16/36;该发明授权基于三元组森林的实体关系联合抽取方法及系统是由程学旗;靳小龙;郭嘉丰;王炫力;席鹏弼;廖华明设计研发完成,并于2022-09-29向国家知识产权局提交的专利申请。
本基于三元组森林的实体关系联合抽取方法及系统在说明书摘要公布了:本发明提出一种基于三元组森林的实体关系联合抽取方法和系统,包括:获取待实体关系抽取的语料,得到句子及其对应的词序列;将词序列输入BERT模型,BERT模型对词序列进行分词,得到子词序列,使用BERT模型对子词序列进行编码,得到句子的分布式表示;将分布式表示输入CRF模型,标注句子中实体,得到实体的向量表示;将实体向量输入,通过TransformerDecoder模块中多头注意力机制获得实体向量中包含的实体间交互信息、实体和输入句子间交互信息的隐层向量;将隐层向量作为Tree‑RNN的初始状态和初始隐层单元,输入实体表示至Tree‑RNN,从Tree‑RNN的根节点的头实体生成其所参与的关系,根据头实体及其对应的关系,选择其尾实体,从而生成重叠的三元组树,再进一步解码得到实体关系三元组。
本发明授权基于三元组森林的实体关系联合抽取方法及系统在权利要求书中公布了:1.一种基于三元组森林的实体关系联合抽取方法,其特征在于,包括: 步骤1、获取待实体关系抽取的语料,并对其进行分句和分词处理,得到句子及其对应的词序列; 步骤2、将该词序列输入BERT模型,BERT模型对该词序列进行分词,得到子词序列,使用该BERT模型对该子词序列进行编码,得到句子的分布式表示; 步骤3、将该分布式表示输入CRF模型,标注句子中实体,得到实体的向量表示; 步骤4、将该实体向量输入,通过TransformerDecoder模块中多头注意力机制获得该实体向量中包含的实体间交互信息、实体和输入句子间交互信息的隐层向量; 步骤5、将该隐层向量作为Tree-RNN的初始状态和初始隐层单元,输入实体表示至该Tree-RNN,从Tree-RNN的根节点的头实体生成其所参与的关系,根据该头实体及其对应的关系,选择其尾实体,从而生成重叠的三元组树,再进一步解码得到实体关系三元组; 其中,该步骤2包括:使用经过预训练的该BERT模型对该词序列进行编码,获得该分布 式表示: 该步骤3包括: 步骤31、通过下式得到句子中各字词属于各标签的概率,以标注句子中实体: 步骤32、为CRF模型随机初始化状态转移矩阵,其中为序列 标注的BIOES标签加上初始状态和结束状态这两个标签的数目;为第i个标签转移到第j 个标签的概率,序列标注的标签序列为,则模型对句子文本X标记为标签Y的打分 为: 在解码阶段,采用维特比算法解码,获得最优预测标签序列,进而由BIOES标注,获得对 应实体。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中国科学院计算技术研究所,其通讯地址为:100080 北京市海淀区中关村科学院南路6号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励