重庆邮电大学张鹏获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉重庆邮电大学申请的专利一种基于多任务学习与知识蒸馏的文档级关系抽取方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119761495B 。
龙图腾网通过国家知识产权局官网在2025-11-14发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411967292.6,技术领域涉及:G06N5/025;该发明授权一种基于多任务学习与知识蒸馏的文档级关系抽取方法是由张鹏;刘宇;邹孟晨;穆仁龙设计研发完成,并于2024-12-30向国家知识产权局提交的专利申请。
本一种基于多任务学习与知识蒸馏的文档级关系抽取方法在说明书摘要公布了:本发明公开了一种基于多任务学习与知识蒸馏的文档级关系抽取方法,该方法包括:获取待抽取文档文本,将其输入训练后的文档级关系抽取模型,输出相应的文档级文本关系;该文档级关系抽取模型包括特征提取模块、教师模型和学生模型,该模型的训练过程包括:利用人工标注的文档数据通过多任务学习预训练得到教师模型;利用预训练的教师模型对未标注证据信息的文档数据进行证据补全;利用证据补全后的文档数据训练学生模型;所述训练后的文档级关系抽取模型包括特征提取模块和训练后的学生模型。本发明能够准确提取文档中的上下文语义信息,通过知识蒸馏有效缓解数据稀疏性问题,实现文档级关系的高效抽取,显著提升模型在复杂语境下的性能。
本发明授权一种基于多任务学习与知识蒸馏的文档级关系抽取方法在权利要求书中公布了:1.一种基于多任务学习与知识蒸馏的文档级关系抽取方法,其特征在于,包括: 获取待抽取文档级关系的文档文本,将其输入训练后的文档级关系抽取模型,输出相应的文档级文本关系; 文档级关系抽取模型包括特征提取模块、教师模型和学生模型,所述特征提取模块包括BERT网络和Transformer编码器,利用BERT网络对输入文档数据进行文档表征及实体表征编码,利用Transformer编码器对BERT网络生成的初步文档与实体表征进行深层次的特征加工,得到更精准和丰富的特征表示; 所述文档级关系抽取模型的训练过程包括: 利用人工标注的文档数据通过多任务学习预训练得到教师模型,其过程包括: S101:利用特征提取模块对人工标注的文档数据进行编码,提取字符表征;根据字符表征生成提及表征,基于提及表征生成实体表征;依据人工标注的实体构建实体对表征; S102:将实体表征输入实体识别模块,对每个实体进行分类,得到实体类型的概率分布,基于此概率分布,计算多分类交叉熵损失LET; S103:将实体对表征输入证据抽取模块,对实体对的三元组证据集合进行概率计算,提取关系存在的证据,根据预测的证据概率,计算二元交叉熵的焦点损失LER; S104:将实体对表征输入关系识别模块,对每个实体对的关系进行分类,得到关系类型的概率分布,基于此概率分布,计算分类交叉熵损失LRE; S105:将多分类交叉熵损失LET、二元交叉熵的焦点损失LER和分类交叉熵损失LRE通过加权求和组合成教师模型的总体损失LT,通过最小化总体损失LT来迭代优化教师模型; 利用预训练的教师模型对未标注证据信息的文档数据进行证据补全,其具体过程包括: S301:获取未标注证据的文档数据,其中包含实体对和对应的关系标签,但缺少明确的证据句信息; S302:将未标注证据的文档数据中的每个文档输入到教师模型的特征提取模块,该模块通过BERT网络和Transformer编码器对文档数据进行初步编码,生成文档级和实体级的上下文表征; S303:根据文档级和实体级的上下文表征生成每个实体对的上下文嵌入,该嵌入包括实体对在文档中的全局信息; S304:对每个文档中的句子进行筛选,构建证据候选句集合Sd,该证据候选集合Sd中的每个句子s包括与实体对相关的上下文信息; S305:将该证据候选句集合Sd中的每个句子s与实体对上下文嵌入结合,利用教师模型的证据抽取模块计算每个句子s成为证据的概率 S306:对证据候选句集合中的每个句子按照概率进行排序,选择概率最高的句子作为该实体对的证据句,并将此信息补全到未标注证据的文档数据中; S307:通过步骤S301-S306,生成包含证据信息的文档数据,该数据中每条数据记录中既包括实体对及其关系标签,还包括经过教师模型补全的证据句; 利用证据补全后的文档数据训练学生模型; 所述训练后的文档级关系抽取模型包括特征提取模块和训练后的学生模型。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人重庆邮电大学,其通讯地址为:400065 重庆市南岸区南山街道崇文路2号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励