华东师范大学翁祯敏获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉华东师范大学申请的专利一种基于大模型逆向生成的文档级关系抽取数据合成方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119782547B 。
龙图腾网通过国家知识产权局官网在2025-11-04发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411818564.6,技术领域涉及:G06F16/36;该发明授权一种基于大模型逆向生成的文档级关系抽取数据合成方法是由翁祯敏;高明设计研发完成,并于2024-12-11向国家知识产权局提交的专利申请。
本一种基于大模型逆向生成的文档级关系抽取数据合成方法在说明书摘要公布了:本发明公开一种基于大模型逆向生成的文档级关系抽取数据合成方法,其特点采用采用基于随机游走的知识图谱采样方法,从外部知识图谱中采样主题连贯的子图,并动态调整三元组的采样概率,具体包括:从知识图谱中采样三元组集合、动态调整采样概率、数据增强、基于三元组集合生成对应文档数据和反思修正机制等步骤。本发明与现有技术相比具有无需训练模型,仅依赖于大语言模型本身的推理能力来生成合成数据,确保文档级关系抽取合成数据标签的高准确率和高召回率,提高了数据的可信度,为后续的模型训练提供了坚实的基础,不仅降低了人力成本,还解决了在教育、医疗等特定领域中难以获取足够高质量标注数据的问题,具有良好的运用前景。
本发明授权一种基于大模型逆向生成的文档级关系抽取数据合成方法在权利要求书中公布了:1.一种基于大模型逆向生成的文档级关系抽取数据合成方法,其特征在于,该方法具体包括: 步骤1:从知识图谱中采样三元组集合 1-1:从知识图谱中选择一个起始实体e0作为采样起点,使用一种基于回溯的随机游走策略,从该实体出发遍历邻接实体及其关系,逐步采样指定数量为N的三元组,得到由下述a式表示的三元组集合T: 其中,分别为头实体和尾实体;ri为对应的关系; 1-2:每完成一个三元组:采样时,随机采用下述方法进行下一步的采样,得到新的三元组: 1随机回溯至已采样三元组集合T中的某个头实体并将其作为新的头实体进行三元组采样,得到一个新的三元组: 2直接以当前三元组的尾实体作为新的头实体进行三元组采样,得到另一个新的三元组: 步骤2:动态调整采样概率 2-1:每次采样三元组后,统计已采样三元组的关系类型分布,并动态调整下一轮采样中各关系r的采样概率Pr,经k步采样后,根据关系频率fr动态更新; 2-2:采样过程中,对于当前三元组:以概率Pri进行保留,1-Pri的概率则舍弃; 2-3:在每一轮关系三元组集合采样开始时,三元组采样概率Pr将用于下一轮随机游走的采样起点的选择,优先选择与低频关系相关联的实体作为采样起点; 步骤3:数据增强 采用子采样方法或知识图谱补全方法对三元组集合T进行数据增强,得到增强后的三元组集合Taug,所述子采样方法采用随机丢弃三元组集合T中20%的三元组,得到由下述b式表示增强后的三元组集合Taug: 所述知识图谱补全使用知识图谱补全模型补充三元组集合T中可能缺失的关系三元组,得到下述c式表示增强后的三元组集合Taug: 步骤4:基于三元组集合生成对应文档数据 将增强后的三元组集合Taug输入大语言模型,根据构建的提示模板进行文档关系抽取数据文本的合成,生成对应的初步文档,所述构建的提示模板根据收到三元组集合Taug的占位符{triplet_set},编写如下要求的文本段落: 1尽可能将三元组的头实体和尾实体分别分布在多个不同的句子中; 2使用代词来替代部分出现频繁的实体; 3每个句子描述一个或多个三元组中的关系; 4文本段落需包含所有关系三元组的信息,且句子的数量不少于6句; 步骤5:反思修正机制 将大语言模型生成的初步文档与三元组集合T进行比对,检查文本是否正确描述了所有给定的三元组关系,如有遗漏或错误修正文本,得到修正完成的结果Documentfixed,作为输入文本和标签添加到文档级关系抽取数据集D中。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人华东师范大学,其通讯地址为:200241 上海市闵行区东川路500号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励