合肥信息工程监理咨询有限公司王标获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉合肥信息工程监理咨询有限公司申请的专利面向多源异构数据的行业知识图谱自动化构建方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN121119085B 。
龙图腾网通过国家知识产权局官网在2026-04-03发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511289754.8,技术领域涉及:G06N5/022;该发明授权面向多源异构数据的行业知识图谱自动化构建方法是由王标设计研发完成,并于2025-09-10向国家知识产权局提交的专利申请。
本面向多源异构数据的行业知识图谱自动化构建方法在说明书摘要公布了:本发明公开了一种面向多源异构数据的行业知识图谱自动化构建方法,涉及知识工程技术领域;支持结构化、半结构化、非结构化及分布式数据,通过Kafka缓存高并发数据;预处理与标准化,执行清洗、字段统一、文本转换及格式转换;采用预训练模型加规则引擎,覆盖多行业实体与关系;设计动态Schema,存储于图数据库并构建索引;从多维度评估并修正;动态更新与维护,基于数据变化增量更新,支持版本管理与知识服务。本发明实现多源异构数据自动化构建知识图谱,提升构建效率与质量,支持跨域融合,适配动态更新,助力多行业智能应用。
本发明授权面向多源异构数据的行业知识图谱自动化构建方法在权利要求书中公布了:1.一种面向多源异构数据的行业知识图谱自动化构建方法,其特征在于,包括: 步骤1、多源异构数据统一接入:对于结构化数据采用JDBCODBC协议实时同步,半结构化数据通过XPathJSONPath解析提取,非结构化数据采用ApacheTika解析内容;支持分布式数据接入,通过Kafka消息队列缓存高并发数据,接入节点动态扩展; 步骤2、数据预处理与标准化:执行清洗操作;结构化数据按行业数据字典标准化字段名与数据类型;非结构化文本通过分词、停用词去除、词向量转换处理;半结构化数据转换为JSON-LD格式; 步骤3、实体与关系联合抽取:采用预训练模型+规则引擎融合架构,BERT-BiLSTM-CRF模型识别实体,实体类型覆盖100+行业核心类别;基于Attention机制的Relation-BERT模型分类关系;规则引擎集成行业专家知识,修正模型抽取误差; 步骤4、知识图谱构建与存储:设计行业通用Schema,支持动态扩展类与属性;将抽取的三元组、实体属性存储于图数据库;构建实体索引,支持模糊查询与语义检索; 步骤5、图谱质量评估与优化:从准确性、完整性、一致性、时效性4个维度评估;采用异常检测算法识别错误三元组,通过人工审核接口修正;对稀疏实体补充属性; 步骤6、图谱动态更新与维护:基于数据变化率设置增量更新触发条件;采用差分更新机制;建立版本管理机制,支持版本回滚;通过API接口向外部系统提供知识服务; 数据异构性度量步骤:量化多源数据的异构程度以指导预处理资源分配,首先对各数据源进行类型标注,结构化数据标记为类型1,半结构化数据标记为类型2,非结构化数据标记为类型3,计算第i个数据源的类型差异系数Ti;再将数据源结构与行业标准结构比对,计算结构差异系数Si=1-匹配字段数标准字段总数;然后通过Word2Vec模型计算数据字段的语义相似度x,构建语义差异函数Semix=1-x,对Semix在[0,1]区间积分得到语义差异积分值;最后采用以下公式计算整体异构度:,其中H为整体数据异构度;n为数据源总数; 实体对齐优化步骤:首先计算实体名称的字符串相似度Simstr,采用Levenshtein编辑距离算法,Simstr=1-编辑距离Max;再通过行业专用词向量模型生成实体词向量,计算余弦相似度Simsem=向量A・向量B||A||・||B||;然后提取实体上下文特征,通过Jaccard相似度计算上下文匹配度Simctx=上下文交集上下文并集;最后采用公式计算对齐置信度:,其中C为对齐置信度;α=0.3、β=0.4、γ=0.3为权重。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人合肥信息工程监理咨询有限公司,其通讯地址为:230601 安徽省合肥市经开区东湖高新合肥创新中心二期16栋602室;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励