安徽大学苏延森获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉安徽大学申请的专利基于联合抽取模型的包虫病知识图谱构建方法及其应用获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116049422B 。
龙图腾网通过国家知识产权局官网在2026-03-06发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211579157.5,技术领域涉及:G06F16/36;该发明授权基于联合抽取模型的包虫病知识图谱构建方法及其应用是由苏延森;汪鹏鹏;王明璐;谭大禹设计研发完成,并于2022-12-07向国家知识产权局提交的专利申请。
本基于联合抽取模型的包虫病知识图谱构建方法及其应用在说明书摘要公布了:本发明公开了一种基于联合抽取模型的包虫病知识图谱构建方法及其应用,其步骤包括:1、定义包虫病知识图谱的模式,2、构造包虫病训练数据集,3、构建包虫病信息联合抽取模型,4、训练包虫病信息联合抽取模型,并构建包虫病知识图谱。本发明通过针对包虫病文献语料特点设计联合抽取模型,采用多种优化策略解决包虫病文献句子中实体嵌套和关系重叠问题,从而能极大提升联合抽取模型对于包虫病文献知识三元组的抽取性能,保证构建的包虫病知识图谱对包虫病信息覆盖完整和全面。
本发明授权基于联合抽取模型的包虫病知识图谱构建方法及其应用在权利要求书中公布了:1.一个基于联合抽取模型的包虫病知识图谱构建方法,其特征在于,是按照以下步骤进行: 步骤1、定义包虫病知识图谱的模式: 步骤1.1、获取包虫病文献集合并提取每篇包虫病文献的关键词后,统计所有关键词的词频,利用所述词频删除所有非关系语义的关键词,从而得到关系语义的关键词集合; 步骤1.2、按照词频对关系语义的关键词集合进行逆序排序,选取词频最高的个关键词分别作为包虫病模式中的个关系类型; 步骤2、构造包虫病训练数据集: 步骤2.1、摘取每篇包虫病文献的摘要与正文部分,并按照句子终结符分别对摘要与正文部分进行拆分,得到拆分后的各个包虫病文献句子,并构成包虫病文献句子集合a; 步骤2.2、从包虫病文献句子集合a中随机取出条包虫病文献句子并构成子集b后,并从集合a中删除子集b中的句子;,表示包虫病文献句子集合a中的句子总数; 步骤2.3、对子集b中的每条句子逐条进行标注,得到标注后的包虫病数据集c,令数据集c中任意一个标注后的样本记为,其中,表示样本中的一条包虫病文献句子,表示中第个词汇,表示词汇量,表示句子的标注,其中,为第个知识三元组,表示的头实体,表示的尾实体,且,且为词汇的组合,且两者的词汇不重叠;表示的关系类型,;表示知识三元组的数量; 步骤3、构建包虫病信息联合抽取模型,包括:编码阶段、实体解码阶段、关系解码阶段;其中,所述编码阶段包含预处理层、词嵌入层和BioBert编码层;所述实体解码阶段,包含实体矩阵构造层和实体向量解码层;所述关系解码阶段,包含CLN标准化层和关系解码层; 步骤3.1、将句子输入包虫病信息联合抽取模型中,并由编码阶段的预处理层对中的词汇量进行判断,若,则对执行分句,从而得到分句集合,其中,任意一个分句记为,,且,表示第个词汇,若最后一个分句的词汇数量小于,则使用空字符补足到N,使得所有分句词汇数量均等于;若,则使用空字符将的词汇数量补足到N;其中,表示最大词汇量; 步骤3.2、所述词嵌入层中预设有词典,所述词典包含若干个键值对,其中,键为词汇,值为二进制索引; 将分句输入到编码阶段的词嵌入层中,并利用词典对第个词汇进行查询,得到第个词汇在词典中的二进制索引,从而得到的字典嵌入向量; 所述词嵌入层根据在中的序号对第个词汇进行嵌入,得到分句索引,从而得到分句索引嵌入向量; 所述词嵌入层根据第个词汇在中的序号对第个词汇进行嵌入,得到位置索引,从而得到位置嵌入向量; 所述词嵌入层利用式1得到词嵌入向量集合: 1 式1中,表示第个词汇的词嵌入向量; 步骤3.3、将分句的词嵌入向量集合输入所述BioBert编码层中进行编码,得到编码向量,令n表示编码向量的长度; 步骤3.4、将所述编码向量输入所述实体解码阶段中进行实体识别: 步骤3.4.1、所述实体矩阵构造层定义并随机初始化一个维度为的二维矩阵; 步骤3.4.2、所述实体矩阵构造层利用式2和式3分别计算打分左乘矩阵和打分右乘矩阵: 2 3 式2和式3中,表示的权重矩阵,表示的偏置向量,表示的权重矩阵,表示的偏置向量; 步骤3.4.3、所述实体矩阵构造层对进行正交变换后,得到位置编码矩阵,且满足等式4; 4 式4中,表示的第列向量,表示的第列向量,表示的第列向量,表示转置; 步骤3.4.4、所述实体矩阵构造层利用式5得到编码向量中任意一段编码子序列的分值: 5 式5中,表示打分矩阵中第列向量,表示打分矩阵中第列向量; 步骤3.4.5、所述实体矩阵构造层将映射到的第行第列元素中,从而得到映射后的二维矩阵; 步骤3.4.6、所述模型实体向量解码层设置长度为n的实体向量,并初始化为全零向量,将映射后的元素累加到的第个位置到第个位置的序列内的每一个位置上,从而得到映射后的实体向量; 步骤3.5、将编码向量和映射后的实体向量进行拼接后,输入到所述关系解码阶段中,并由CLN标准化层进行标准化处理,从而利用式6得到包虫病实体关系链接向量: 6 式6中,表示的第个向量单元,表示映射后的实体向量的第个向量单元,和分别表示的均值和标准差,表示CLN标准化层中自身优化增益向量的第个元素,表示CLN标准化层中自身条件向量的第个元素; 步骤3.6、将输入到所述关系解码层,并利用实体关系穷举算法来预测中所有知识三元组: 步骤3.6.1、将中由第i个向量单元至第j个向量单元所构成的一个实体设定为标注中任意第个知识三元组的头实体; 步骤3.6.2、将包虫病模式中种关系类型的一种关系类型设定为的关系类型; 步骤3.6.3、所述关系解码层对进行转换激活,并输出尾实体的起始索引向量和尾实体的结束索引向量,其中,表示尾实体起始索引向量中第位置元素,表示尾实体结束索引向量位置元素,; 步骤3.6.4、设定概率阈值,若和均大于,且,则判定由第y个向量单元至第z个向量单元所构成的一个实体是中知识三元组的尾实体序列,从而获得一个完整的知识三元组; 步骤3.6.5、按照步骤3.6.2-步骤3.6.4的过程遍历包虫病模式中每种关系类型,从而得到由若干个知识三元组所构成的分句的标注; 步骤3.7、构建所述包虫病信息联合抽取模型的总损失为实体解码阶段的交叉熵损失和关系解码阶段的交叉熵损失之和; 步骤4、训练包虫病信息联合抽取模型,并构建包虫病知识图谱: 步骤4.1、利用包虫病数据集c对包虫病信息联合抽取模型进行迭代训练,并计算总损失函数用于更新模型参数,直到总损失函数收敛为止,从而得到训练后的包虫病信息联合抽取模型; 步骤4.2、从子集b中依次取出条未经标注的包虫病文献句子,输入到训练后的包虫病信息联合抽取模型中,并相应输出条包虫病文献句子的预测标注并存入三元组预测集合中; 步骤4.3、对三元组预测集合中任一预测知识三元组中的预测头实体和预测尾实体存入实体集合,并去除和中重复的实体和关系; 步骤4.4、利用图数据库构造包虫病知识图谱: 步骤4.4.1、遍历去重后的,并在图数据库中创建每个预测头实体和预测尾实体对应的图实体; 步骤4.4.2、遍历去重后的,并从图数据库中检索其中任一预测知识三元组中头实体所对应的图实体、尾实体所对应的图实体,并创建两者之间关系类型; 步骤4.4.3、全部关系创建完毕后,由参与多组知识三元组的图实体构成的关系连通图作为所构建的包虫病知识图谱。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人安徽大学,其通讯地址为:230601 安徽省合肥市经济技术开发区九龙路111号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励