Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
专利交易 积分商城 国际服务 IP管家助手 科技果 科技人才 商标交易 会员权益 需求市场 关于龙图腾 更多
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 重庆大学尚家兴获国家专利权

重庆大学尚家兴获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉重庆大学申请的专利一种基于异构图交互和掩码多头注意力机制的文档级事件抽取方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116108127B

龙图腾网通过国家知识产权局官网在2026-03-06发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211490817.2,技术领域涉及:G06F16/31;该发明授权一种基于异构图交互和掩码多头注意力机制的文档级事件抽取方法是由尚家兴;付晨阳;郑林江;陈逢文;周尚波;黄为希设计研发完成,并于2022-11-25向国家知识产权局提交的专利申请。

一种基于异构图交互和掩码多头注意力机制的文档级事件抽取方法在说明书摘要公布了:本发明涉及一种基于异构图交互和掩码多头注意力机制的文档级事件抽取方法,该方法包括以下步骤:S1:对文本进行预处理,获取目标文本的分词组;S2:使用Bert对目标文本进行编码得到目标文本的词向量;S3:将词向量输入到条件随机场进行命名实体识别;S4:构建文档异构图,初始化句子节点向量和实体提及节点向量,获取不同边对应的邻接矩阵;S5:将不同邻接矩阵作为掩码矩阵,利用多头注意力机制学习异构图表示的节点特征;S6:基于多头注意力机制进行事件检测;S7:根据预先定义的事件角色队列,依次填充角色对应的论元。该方法通过改变Transformer的多头注意力的掩码机制,使得多头注意力以更高效的方式关注异构图的结构信息,提高了事件抽取的精确度。

本发明授权一种基于异构图交互和掩码多头注意力机制的文档级事件抽取方法在权利要求书中公布了:1.一种基于异构图交互和掩码多头注意力机制的文档级事件抽取方法,其特征在于:该方法包括以下步骤: S1:对文本进行预处理,获取目标文本的分词组; S2:使用Bert对目标文本进行编码得到目标文本的词向量; S3:将词向量输入到条件随机场进行命名实体识别; S4:构建文档异构图,初始化句子节点向量和实体提及节点向量,获取不同边对应的邻接矩阵; S5:将不同邻接矩阵作为掩码矩阵,利用多头注意力机制学习异构图表示的节点特征; S6:基于多头注意力机制进行事件检测; S7:根据预先定义的事件角色队列,依次填充角色对应的论元; 在本方法中,事件抽取需从文本中抽取事件类型及事件角色对应的论元,非结构化文本是指包含多组句子的文档其中|D|表示文档中的句子数,句子si由一系列词语组成其中wj表示句子si中的第j个词语;事件抽取任务分解为实体提取、事件类型检测、事件角色填充三个子任务,其中实体提取旨在抽取作为论元候选词的实体事件类型检测旨在识别文档所包含的事件类型T,而一个文档可能包含多个事件类型;事件角色填充旨在将提取的实体填充到对应事件角色中; 在本方法中,所述事件抽取需要进行命名实体识别任务,该任务一是为了抽取待填充的论元实体,二是为了进行初始的词向量上下文表示;本方法将实体识别任务视为BIO序列标注任务,将每个字标注为“B-X”、“I-X”或O,“B-X”表示该字所在实体属于角色X并且该字在该实体的开头,“I-X”表示该字所在实体属于角色X并且该字在该实体的中间位置或者结束位置,O表示该字不属于任何实体; 通过对文本句子进行预处理,获取文本句子分词序列使用Bert模型将si编码为向量序列使用条件随机场进行命名实体识别,获取命名实体识别损失为: 其中,s表示目标文本句子的分词序列,ys为该分词序列s对应的标记序列,Pys|s表示单词序列最有可能的标记序列的概率; 在本方法中,将文档映射成文档异构图,通过学习异构图的表示,将融合文档信息的多组句子作为事件检测的特征矩阵;采用的文档异构图包含两种类型节点和五种类型的边,其中,节点包含实体提及节点和句子节点,边包括同实体边、实体提及边、句子-实体提及边、句子-句子边、全连接边;其中,同实体边表示同一个实体的实体提及之间的连接,实体提及边表示同一个句子的多个实体提及之间的连接,句子-实体提及边表示句子节点与实体提及之间的连接,句子-句子边表示句子节点按照先后顺序进行相连,句子节点之间的连接;全连接边表示任意节点两两相连,包含节点的自我连接; 初始化句子节点特征向量hs=maxHi,其中,max·表示最大池化,Hi表示单词序列的隐藏层表示;对于一个实体提及的所有隐藏层表示,使用最大池化获取实体提及表示 其中,max·表示最大池化,Nm表示同实体提及的词向量集合;将离散的实体提及类型转化为类型嵌入lj,进而获得最终的实体表示其中, 将文档的句子节点表示与所有实体表示重组成节点特征矩阵 本方法中,根据定义的文档异构图节点间边的类型,将文档异构图拆分成5个边不同的子图,获得5个表示不同边的邻接矩阵: A=A1,A2,A3,A4,A5 采用一种特殊的掩码注意机制,将不同邻接矩阵作为掩码矩阵,使得模型关注异构图的边信息;为了抽取多个不同的子图,使用多头注意力机制,让不同的注意力头负责关注不同的子图: Y=MultiHeadQ,K,V,A=Concathead1,…,head5WO 其中 其中,均为可学习参数矩阵;MASK·表示掩码操作;如果子图中两节点间不存在边,为了使Softmax后子图中不含边的输出概率为0,将掩码后所得矩阵中对应值赋为负无穷; 该步骤让不同的注意力头关注异构图的不同边; 由于一个文本文档可能包含多个事件,并且事件类型可能不同,因此本方法将事件类型检测任务视为多标签分类任务,基于多头注意力机制进行多标签分类: A=MultiHeadQ,S,S R=σATWt 其中,Q和Wt为可训练参数,σ·表示sigmoid激活函数;MultiHead表示标准的多头注意力机制;采用交叉熵损失作为事件类型检测任务的损失函数: 其中,T表示事件类型数量,yt表示事件类型标签,当事件类型为t时,yt=1, 否则,yt=0; 在本方法中,对于每种事件类型,定义一个事件角色序列;然后,按照此序列将每个事件记录转换为论元的顺序连接,其中每个论元节点要么是实体,要么是特殊的空节点;因此,将事件记录填充任务视为从事件类型节点开始的路径拓展任务;依照预先定义的事件角色队列,依次填充角色对应的论元; 将每一个路径拓展子任务视为多个二分类任务,预测每个实体是否能够作为事件角色的填充;为了便于训练,采用交叉熵损失函数作为事件记录填充任务的损失函数: 其中,ND表示事件记录路径的节点集,表示论元填充分类任务标签,如果第t个实体能被填充为节点n的下一个论元,则否则 将三个子任务损失函数加权求和,得到总体损失函数Lall: Lall=λ1Lner+λ2Ldet+λ3Lrec 其中,λ、λ、λ为超参数。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人重庆大学,其通讯地址为:400030 重庆市沙坪坝区沙正街174号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。