北京科技大学付冬梅获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉北京科技大学申请的专利一种基于钢材知识图谱的钢材潜在知识推理方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114860889B 。
龙图腾网通过国家知识产权局官网在2025-07-29发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210611454.7,技术领域涉及:G06N5/04;该发明授权一种基于钢材知识图谱的钢材潜在知识推理方法及系统是由付冬梅;陈东辉;宋广轩;张达威;马菱薇设计研发完成,并于2022-05-31向国家知识产权局提交的专利申请。
本一种基于钢材知识图谱的钢材潜在知识推理方法及系统在说明书摘要公布了:本发明涉及一种基于钢材知识图谱的钢材潜在知识推理方法及系统,属于知识图谱与钢铁材料领域。方法包括:抽取现有钢材数据中的结构化钢材知识三元组数据集;构建钢材知识图谱并存储;利用钢材知识图谱中的钢材知识三元组训练知识表示模型;基于钢材知识图谱和训练好的知识表示模型来训练基于潜在关系的推理模型;利用训练好的推理模型进行潜在知识推理。本发明方法利用知识图谱整合钢材领域知识并对其进行形式化的描述,之后在知识表示模型的基础上,能够以端到端的学习方式学习钢材知识图谱中的实体关系的嵌入表示,从而进一步对已知的钢材之间关系进行建模,解决了难以挖掘钢材牌号潜在知识的问题。
本发明授权一种基于钢材知识图谱的钢材潜在知识推理方法及系统在权利要求书中公布了:1.一种基于钢材知识图谱的钢材潜在知识推理方法,其特征在于,包括: 获取钢材领域现有钢材数据并抽取所述现有钢材数据中的结构化钢材知识三元组数据集; 所述获取钢材领域现有钢材数据并抽取所述现有钢材数据中的结构化钢材知识三元组数据集,具体包括: 从互联网上和文献手册中收集钢材领域有关钢材牌号数据,并按照其结构化程度划分为结构化数据及非结构化数据,将结构化数据以二维表单形式,非结构化数据以文本形式存储在本地钢材数据库中,作为现有钢材数据;其中钢材领域有关钢材牌号数据包括与钢材牌号有关的替代牌号、化学成分、结构、性质性能和服役效能这些信息,还包括钢铁材料的替代关系、化学成分、机械性能、物理性能、制造工艺、产品形状、分类以及一般用途这些属性; 将钢材数据库中以二维表单形式存储的结构化数据按照数据的行名为头实体,列名为关系,数据本身为尾实体的规则映射成行名-列名-数据三元组; 将钢材数据库中的非结构化数据通过采用实体属性抽取模型提取其中对应的实体-属性-属性值三元组; 对所述行名-列名-数据三元组和实体-属性-属性值三元组进行数据清洗,得到对应的结构化钢材知识三元组构成所述结构化钢材知识三元组数据集; 利用所述结构化钢材知识三元组数据集构建钢材知识图谱并存储; 所述利用所述结构化钢材知识三元组数据集构建钢材知识图谱并存储,具体包括: 基于所述结构化钢材知识三元组数据集中的实体与关系,利用文本相似性度量方法进行实体对齐以消除歧义,得到用于构造钢材知识图谱的钢材知识三元组数据集; 以所述钢材知识三元组数据集中各个钢材知识三元组的头尾实体作为知识图谱中的节点,以所述钢材知识三元组数据集中头尾实体间关系作为知识图谱中的边,构建出所述钢材知识图谱; 将所述钢材知识图谱存储到图数据库中; 利用所述钢材知识图谱中的钢材知识三元组训练知识表示模型,得到训练好的知识表示模型; 所述利用所述钢材知识图谱中的钢材知识三元组训练知识表示模型,得到训练好的知识表示模型,具体包括: 步骤3.1:负例三元组生成:所述钢材知识图谱中的钢材知识三元组为已存在的事实三元组,对所述事实三元组按照预设概率分别替换其头尾实体,生成对应的负例三元组; 具体地,将所述的钢材知识图谱中的钢材知识三元组利用h,l,t的形式表示,h表示头实体,l表示关系,t表示尾实体;统计头尾实体的个数分别为Nh、Nt,得到概率P,具体公式如下: 对钢材知识图谱中的钢材知识三元组按照概率P替换其尾实体,按照1-P的概率替换其头实体,并保证替换后的三元组不在钢材知识图谱中,来得到负例三元组数据集,其公式定义为:S'h,l,t={1-P|h',l,t|h'∈E}∪{P|h,l,t'|t'∈E};其中E表示实体数据集,h'与t'为随机替换的头尾实体,S'h,l,t为头尾实体替换后的负例三元组数据集; 步骤3.2:知识表示模型构建、训练:利用所述事实三元组和生成的负例三元组构建并训练知识表示模型,知识表示模型根据损失函数进行梯度更新,达到规定的训练轮次后得到所述训练好的知识表示模型; 具体地,将所有三元组中的实体与关系h、l、t随机初始化一个指定维度s的向量Eh,El、Et;对于钢材知识图谱已存在的事实三元组h,l,t,有Eh+El与Et的距离尽可能近;对于钢材知识图谱不存在的负例三元组h,l,t,要使得Eh+El与Et距离相当远;向量之间的距离度量,选择L2范数,具体公式如下:其中xi表示x中的第i个向量,N表示x中的向量个数; 设置知识表示模型的损失函数如下: 其中S表示钢材知识三元组数据集,h,l,t表示S中已存在的事实三元组,S'表示负例三元组数据集,h′,l,t′为负例三元组;[x]+为合页损失函数,表示取x的非负部分,若x≤0,则[x]+=0;超参数γ是一个正数,表示正确的三元组得分和错误的三元组得分的裕度; 基于所述钢材知识图谱和所述训练好的知识表示模型来训练基于潜在关系的推理模型,得到训练好的推理模型;推理模型采用CapsE模型,CapsE模型利用胶囊网络对知识库中的实体和关系进行编码; 所述基于所述钢材知识图谱和所述训练好的知识表示模型来训练基于潜在关系的推理模型,得到训练好的推理模型,具体包括: 步骤4.1:以潜在关系r为目标的模型数据集构建:将所述钢材知识图谱中所有关系路径分解成三元组数据作为模型数据集,并将所述模型数据集中存在潜在关系的三元组数据按照比例划分出验证集,所述模型数据集中其余三元组数据作为训练集; 步骤4.2:利用所述训练好的知识表示模型得到所述模型数据集中的实体与关系在低维空间的初始化向量表示; 将模型数据集中的钢材实体与关系的向量表示初始化为步骤3.2通过知识表示学习模型得到的结果; 步骤4.3:模型训练阶段:将所述训练集中实体与关系的初始化向量表示拼接成矩阵,利用所述矩阵来训练推理模型,利用所述验证集调整所述推理模型的超参数,从而得到训练好的推理模型; 具体地,将训练集中的三元组h,l,t的初始化向量表示拼接为一个矩阵A,然后用50个滤波器w进行卷积,得到50个特征图q,公式定义如下: qi=gw·Ai+b; 其中·是点积,b是偏置项,g是非线性激活函数,Ai为矩阵A的第i行向量,qi为q中的第i个特征图; 将卷积层结束得到很多个特征图q的相同维度拼接为第一层胶囊,通过动态路由过程得到最终的输出向量s,整个过程的公式如下: 其中ui为胶囊向量,Wi为权重矩阵,bi为第一层胶囊可学习到的超参数,softmax·是将输入向量映射为0-1之间的实数; 推理模型的损失函数如下: 其中, 其中,S表示以潜在关系r为目标的模型数据集,S'为基于以潜在关系r为目标的模型数据集通过步骤3.1生成的损坏三元组数据集;||·||是一个向量二范数的运算,||·||2是一个向量二范数的平方运算,squash·是整个胶囊网络中的激活函数,th,l,t为计算的一个中间参数;推理模型在训练数据上根据损失函数进行梯度更新,最终达到规定的训练轮次30为止,从而得到训练好的推理模型,表示为capsnet·;该训练好的推理模型的输入为目标钢材牌号和待推理目标潜在关系,输出为该目标钢材牌号具有的待推理目标潜在关系的一系列的候选结果,按照可能性大小排序; 利用所述训练好的推理模型进行潜在知识推理,推理出钢材潜在知识;所述钢材潜在知识包括钢材替代牌号、力学性能或化学成分; 基于待推理的目标潜在关系和目标钢材牌号构成的待推理三元组,利用所述训练好的推理模型对所述钢材知识图谱中所有实体进行打分,根据得分大小识别出与所述目标钢材牌号具有目标潜在关系的最优实体; 具体地,对于给定的待推理目标潜在关系r和目标钢材牌号En,使用如下打分函数对钢材知识图谱中所有实体进行打分: score=capsnetEn,r,Ei|Ei∈E; 其中score为打分函数计算出的得分,capsnet·为训练好的推理模型,E表示钢材知识图谱中的实体数据集,Ei为实体数据集E中的第i个实体; 根据得分大小进行降序排列,得到钢材知识图谱中所有实体在候选实体中的排名,从而识别出与目标钢材牌号En具有目标潜在关系r的最优实体,通常将得分最大的实体作为该最优实体。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京科技大学,其通讯地址为:100083 北京市海淀区学院路30号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。