北京理工大学史树敏获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉北京理工大学申请的专利一种基于平衡化标签的文档级关系抽取方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119692329B 。
龙图腾网通过国家知识产权局官网在2025-12-05发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411529322.5,技术领域涉及:G06F40/205;该发明授权一种基于平衡化标签的文档级关系抽取方法是由史树敏;杨崇盛设计研发完成,并于2024-10-30向国家知识产权局提交的专利申请。
本一种基于平衡化标签的文档级关系抽取方法在说明书摘要公布了:一种基于平衡化标签的文档级关系抽取方法,属于自然语言处理领域中的关系抽取领域。本发明实现方法为:收集应用领域的文档数据和领域关注的实体间的关系。基于实体类型和实体在关系语义中的位置,排列组合得到平衡化关系标签加入关系标签集,标注文档数据集实体间存在的关系标签。搭建文档级关系抽取模型,选取基座编码模型,增加三线性池化模块融合主语实体、宾语实体和相关上下文的表示,提高上下文在推理时占的权重。构建改进文档级关系抽取模型训练的损失函数,提高文档级关系抽取模型推理得到的关系标签的置信分数。训练文档级关系抽取模型,选取表现最好的文档级关系抽取模型用于实际应用,提高文档级实体关系抽取的准确率。
本发明授权一种基于平衡化标签的文档级关系抽取方法在权利要求书中公布了:1.一种基于平衡化标签的文档级关系抽取方法,其特征在于:包括以下步骤, 步骤1:将被实际投入使用到A领域用于文档级关系抽取,则先收集A领域内的文档数据组成文档数据集{D},同时收集A领域关注的实体间的关系,组成关系标签集{R};划分总的文档数据集{D}为训练集、验证集和测试集;训练集用于文档级关系抽取模型的训练,验证集用于文档级关系抽取模型微调参数的快速验证,测试集用于衡量比较最终投入使用的文档级关系抽取模型的关系抽取效果;对总的文档数据集{D}的每篇文档d做命名实体识别,得到实体在文档中的位置标注以及类型信息,实体的所有类型的集合记为{C}; 步骤2:对步骤1收集到的文档数据集,包括训练集、验证集和测试集,在文档d的Sd个句子的开头和结尾插入起始特殊词元“[CLS]”和分隔句子的特殊词元“[SEP]”;用一对星号“*”高亮实体e的每个实体提及me,j,再利用基座编码模型对应的分词器对文档分词,得到文档的词元在分词器词元表的id列表[id1,id2,...];依据“*”号词元的id确定实体提及的起止位置,进而得到“键为实体e,值为每个实体提及前*号位置表”的映射表; 步骤3:以步骤2得到的文档的词元id列表[id1,id2,...]作为输入,根据式1利用预训练语言模型来编码: H,A=PLM[id1,id2,...]1 其中,PLM表示搭建文档级关系抽取模型所选用的预训练语言编码模型PretrainedLanguageModel的首字母缩写表示,H表示文档的词元id列表每个词元的向量表示组成的矩阵,有t为词元token的首字母缩写表示,Nt为文档的词元个数,h为向量表示的维度;是由预训练语言模型PLM最后一层变换器transformer层输出的每个词元的注意力向量组成的矩阵,每个词元的注意力向量是由不同注意力头的注意力向量做平均池化后的得到的; 利用步骤2得到的“键为实体e,值为每个实体提及前*号位置表”的映射表{e:[me,1,me,2,...]},取到实体e的实体提及的位置表[me,1,me,2,...];在文档词元的向量表示矩阵H中取出实体提及位置表[me,1,me,2,...]每个位置处的词元的向量表示,然后做池化来融合文档不同位置的实体提及的向量表示,得到头实体eh和尾实体et的向量表示,记为Hh和Ht;头尾实体的向量表示Hh和Ht经过文档级关系抽取模型的位置信息融合模块,得到带有位置信息的实体向量表示Zh和Zt; 头实体eh和尾实体et的向量表示Hh和Ht的计算,是通过LogSumExp池化技术来计算,设实体e的“实体提及”集为其中||{me}||为实体e在文档d中“实体提及”的个数,则获取实体e的向量表示的表达式为: 其中h为预训练语言编码模型输出的词元向量的维度,其中为实体e的第j个实体提及的向量表示,从而得到了头实体eh和尾实体et的向量表示Hh和Ht; 获取带有位置信息的实体向量表示Zh和Zt的位置信息融合模块的计算表达式为: Ze=tanhWHe+b3 其中Ze为带有位置信息的实体向量表示,h为预训练语言编码模型输出的词元向量表示的维度,矩阵W和向量b是位置信息融合模块的数学表示,是位置信息融合模块的可学习参数;位置信息融合模块使得公式2得到的实体e的向量表示He,转化为带有位置信息的实体向量表示Ze; 步骤4:为了让文档级关系抽取模型对实体对eh,et存在的关系标签做推理,还需加入能佐证推理的上下文向量表示;利用步骤3得到的由每个词元的注意力向量组成的矩阵A,得到头尾实体分别对于文档上下文词元的注意力向量Ah和At;将头尾实体的注意力向量Ah和At先做哈达玛积,后做向量标准化运算,得到实体对关于文档上下文词元的注意力向量Ah,t;再将Ah,t和文档词元的向量表示矩阵H做哈达玛积,得到头尾实体共同关注的上下文的向量表示Ch,t; 步骤5:将训练集的文档d作为上述步骤3和步骤4所描述的文档级关系抽取模型的输入,得到模型推理的关系标签的置信分数后,计算模型训练的损失函数值;将文档级关系抽取模型在训练集文档上多轮训练,直到训练损失不再降低,在验证集上进行训练参数的调整,保存在测试集上准确率最高的文档级关系抽取模型参数,用于实际的文档级关系抽取; 步骤6:将步骤5得到的训练好的文档级关系抽取模型应用于自然语言处理的关系抽取领域,进行文档级关系抽取,得到文档级关系抽取结果。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京理工大学,其通讯地址为:100081 北京市海淀区中关村南大街5号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励