北京工业大学刘潇健获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉北京工业大学申请的专利基于语义和关系结构融合嵌入的知识图谱嵌入方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115935968B 。
龙图腾网通过国家知识产权局官网在2025-09-09发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310005099.3,技术领域涉及:G06F40/279;该发明授权基于语义和关系结构融合嵌入的知识图谱嵌入方法是由刘潇健;顾问;张旸旸;边洪梅设计研发完成,并于2023-01-04向国家知识产权局提交的专利申请。
本基于语义和关系结构融合嵌入的知识图谱嵌入方法在说明书摘要公布了:本发明利用语义相关性和关系结构相关性在关联关系推理中的作用,提出一种基于语义和关系结构融合嵌入的知识图谱嵌入方法,适用于所有既包含实体描述,又包含关联关系的知识图谱的嵌入和推理,相较于纯基于语义嵌入和纯基于关系结构嵌入的知识图谱嵌入方法,本发明在知识图谱关联预测任务、实体预测任务和未知实体样本预测任务中都有良好的表现。
本发明授权基于语义和关系结构融合嵌入的知识图谱嵌入方法在权利要求书中公布了:1.基于语义和关系结构融合嵌入的知识图谱嵌入方法,其特征在于: 步骤1:提炼知识图谱的“实体描述数据集”和“关系结构数据集”;“实体描述数据集”源自实体的描述性属性;“关系结构数据集”源自于实体关系三元组h,r,t,其中h,t表示头实体和尾实体,r表示关系类型; 步骤2:训练词嵌入模型;基于“实体描述数据集”进行词嵌入训练,构建词嵌入模型;词嵌入模型中保存了“实体描述数据集”中单词的嵌入向量; 步骤3:实体预向量嵌入;从“关系结构数据集”中随机选取训练数据;对于每个三元组h,r,t,从“实体描述数据集”中获取相应的头尾h,t的实体描述,并以实体描述中所有词的词向量均值定义实体语义嵌入的预向量pre_vector; 步骤4:语义嵌入;头实体预向量pre_H_vector和尾实体pre_T_vector预向量经过相同结构、相同参数的语义嵌入网络后,嵌入为头实体向量H_vector和尾实体向量T_vector; 步骤5:关系结构嵌入;头实体向量H_vector和尾实体向量T_vector,与关系向量R_vector共同输入到关系结构模型进行优化训练,同时优化头尾实体向量、关系向量及语义嵌入网络的参数,实现语义和关系结构的联合训练和融合嵌入; 技术实现和网络模型具体如下: 1语义嵌入技术实现 语义嵌入基于出现在相似上下文中的词具有相似含义的假设,采用基于当前词的周围词contextw预测当前词w的方法实现词嵌入,即最大化条件概率pw|contextw;同时采用随机负采样提高词嵌入性能,对于给定的contextw,词w就是一个正样本,其它词就是负样本;对于一个给定的样本contextw,w,希望最大化: gw=∏u∈{w}∪NEGwpu|contextw1 式中,NEGw表示负样本集,通过增大正样本概率同时降低负样本概率,最大化gw;基于Sigmoid构造pu|contextw: 式中,Lwu为样本标签,正样本Lwu=1,负样本Lwu=0;xw表示contextw中各词向量之和,θu表示词u对应的待训练参数;Sigmoid函数用σX表示; 对于“实体描述数据集”中语料库基于公式1和公式2定义目标函数 利用随机梯度求解参数更新: 经过模型训练,得到词嵌入模型及语料库中所有词的词向量vw;然后,基于词嵌入模型构建实体的语义嵌入向量;设实体描述的词集合D={w1,w2,...,wm},每个描述词对应的词向量为vwi,则实体预向量: 实体预向量pre_vector作为预训练向量输入语义神经网络模型: fpre_vector,ω6式中ω为语义嵌入网络模型中的各参数; ω是语义嵌入网络模型中参数的统称,模型中的参数数量由向量维度V决定,数量是V*V;语义嵌入阶段采用V维到V维的全连接方式,以保持各部分嵌入维度的一致;经过语义嵌入阶段,头实体、尾实体分别嵌入为V维的H_vector和T_vector,分别输入关系结构嵌入阶段的神经网络模型中; 2关系结构嵌入技术实现 语义嵌入阶段结束后,头尾实体向量H_vector和T_vector作为输入进入关系结构嵌入阶段;关系结构嵌入阶段的目标是将“关系结构数据集”中的头实体、尾实体和关联关系三元组h,r,t关系结构信息嵌入到向量中;因此,该阶段的输入除了头尾实体向量外,还应包括关联关系向量;与实体向量的维数保持一致,关联关系嵌入的向量也为V维;设关联关系的类型数量为C,则关联向量矩阵为C×V维;训练时,根据三元组h,r,t抽取相应的关联关系向量; 关系结构嵌入的基本思路是将实体之间的关联关系r理解为头实体h和尾实体t之间的转换操作,即:H_vector+R_vector≈T_vector;几何意义是尾实体向量应该是头实体向量与关系向量加和的近邻;关系结构嵌入效能函数E则被定义为: E=||H_vector+R_vector-T_vector||7 基于E设计损失函数并基于梯度下降法优化更新各模型参数;其中,关系结构嵌入阶段更新的参数为整个关联向量矩阵,及头尾向量H_vector和T_vector;H_vector和T_vector仅作为辅助参数,将梯度变化传递到语义嵌入阶段,进行语义嵌入网络模型中各参数的更新; 3嵌入模型优化 根据公式7和L2范数定义距离函数dh+r,t,用于衡量h+r和t之间的距离: 式中,h,t表示头尾实体向量,即H_vector,T_vector;r表示关系向量,即R_vector; 在关系结构嵌入中采用最大间隔方法,定义目标函数Loss: 式中,S是“关系结构数据集”中的三元组,S'h,r,t是通过替换h,r,t中的h,t得到的负采样三元组;γ是取值大于0的间隔距离参数;[X]+表示正值函数,即X0时,[X]+=X;当X≤0时,[X]+=0;令L=γ+dh+r,t-dh'+r,t'; 关系结构嵌入阶段训练优化关系向量r,更新公式为: 语义嵌入阶段主要训练优化语义神经网络模型中的参数ω,更新公式为: 将公式6代入L: L=γ+d[fp_h,ω+r,fp_t,ω]-d[fp_h',ω+r,fp_t',ω]12 则公式11中: 式中,p_*表示不同的预向量;通过公式12和公式13将关系结构嵌入阶段的针对头尾实体向量的训练和更新继续传递到语义嵌入阶段的网络模型中,实现已标识的实体关系对关系结构嵌入模型和语义嵌入模型共同地监督优化。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京工业大学,其通讯地址为:100124 北京市朝阳区平乐园100号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。