西南科技大学廖竞获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉西南科技大学申请的专利一种基于知识图谱的多源数据差异溯源检索方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115809345B 。
龙图腾网通过国家知识产权局官网在2026-03-31发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211527513.9,技术领域涉及:G06F16/36;该发明授权一种基于知识图谱的多源数据差异溯源检索方法是由廖竞;吴亚东;鲍忠将;王桂娟;汪永洋设计研发完成,并于2022-12-01向国家知识产权局提交的专利申请。
本一种基于知识图谱的多源数据差异溯源检索方法在说明书摘要公布了:本发明涉及多源数据差异溯源检索技术领域,具体为一种基于知识图谱的多源数据差异溯源检索方法,包括以下步骤,知识图谱构建,将带有差异的多元数据进行整理合并,提取出有效的信息,实现知识图谱的构建,具体包括以下步骤:知识提取和知识合并;多源数据溯源检索,具体包括以下步骤:知识图谱数据检索与溯源,通过Django服务器,对Neo4j数据库进行请求,来获得图数据库中的各个节点的键值对信息。本发明通过知识图谱构建,解决知识获取困难和关系体现问题,通过获取不同来源的专业数据,并进行分析和整理,自顶向下地构建领域知识本体,然后对这些数据进行知识抽取和融合,使其知识语义信息更完备,从而构建知识图谱。
本发明授权一种基于知识图谱的多源数据差异溯源检索方法在权利要求书中公布了:1.一种基于知识图谱的多源数据差异溯源检索方法,其特征在于,包括以下步骤: 步骤S1,知识图谱构建,将带有差异的多元数据进行整理合并,提取出有效的信息,实现知识图谱的构建,具体包括以下步骤: a,知识提取,知识抽取选用数据语料中的命名实体作为节点,一个实体对应现实世界中的一个事物,从面向对象的角度把实体当作一个对象,每个实体有自己的属性,每个实体在图谱中代表一个知识单元,检索时也会返回以实体为检索单位的相关信息,实体通过其名字在文本中使用,实体词性为名词或名词性短语; 基于从上到下的原则做命名实体的提取,首先结合领域专家意见整理出了该领域的专业层级词汇表,此外,经过提取发现除了这些实体外,语料数据中的许多词语也适合作为知识图谱中的知识单元,所以本项目将使用关键词提取算法提取出语料中的关键词,并过滤出其中名词性质的关键词同样作为图谱中的命名实体; b,知识合并,把不同数据学习得到的实体中描述同一目标的进行合并,得到一个具有具体指向的层级节点; 首先借助现有领域数据体系和的规范描述对数据进行筛选,排除不符合原有体系规划的实体,然后再利用实体字符串的相似度进行对齐; 首先使用别名属性进行对齐,对于缺失别名信息的实体,再依次利用实体名的字符串特征,实体描述,属性信息和语义网信息对实体进行对齐,其中两个实体的字符串相似度通过Word2Vec模型进行向量化,再通过向量的余弦相似度计算得到,实体描述相似度通过Doc2Vec模型、编辑距离和TF-IDF算法计算得到,语义网信息是指实体在语义网中的结构信息,也认为是实体的关联实体信息,使用实体的嵌入式向量作为其语义网结构特征向量,然后通过余弦相似度计算匹配得分; 步骤S2,多源数据溯源检索,根据构建出的知识图谱,提取待溯源的知识特征,将该特征带入溯源模型中,实现溯源检索,具体包括以下步骤: a,知识图谱数据检索与溯源,通过溯源检索来确定可疑数据的问题与数据来源,溯源检索针对量大、多层次、多维度、多来源、描述不一致的数据,构建专业知识图谱,在此基础上,结合语义和图结构进行溯源检索,帮助用户理解和分析数据间的关系; 溯源检索部分,分为对节点的溯源检索和对自然语言查询问句的溯源检索,分为以下两种情况: 如果输入的内容是知识图谱中的节点,则直接在neo4j中使用Cypher语句根据提供者和来源两种关系,对节点的来源信息进行多节点多关系的嵌套查询; 如果输入内容是自然语言则通过HanLp工具包对用户输入的自然语言查询问句进行依存句法分析和语义依存分析,根据自定义词典提取实体关系作为问题特征,然后根据这些特征词汇的语义理解和知识图谱中的实体关系,建立不同的问题类型;然后参照输入问句的特征词,利用朴素贝叶斯分类算法匹配查询问题的类别;最后传递参数给预设的Cypher语句查询模板,从图数据库Neo4j中检索结果返回给用户; b,通过Django服务器,对Neo4j数据库进行请求,来获得图数据库中的各个节点的键值对信息,利用Jackjson包,将半结构化的map键值对数据转化为前端所需要的的Json数据,前端利用D3前端开发工具包实现对Json数据的渲染。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人西南科技大学,其通讯地址为:621000 四川省绵阳市涪城区;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励