国家电网有限公司信息通信分公司李志宏获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉国家电网有限公司信息通信分公司申请的专利一种基于轻量级预训练模型的云运维知识图谱构建方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN117556052B 。
龙图腾网通过国家知识产权局官网在2025-10-24发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202311379898.3,技术领域涉及:G06F16/36;该发明授权一种基于轻量级预训练模型的云运维知识图谱构建方法是由李志宏;王怀宇;来风刚;陈亮;冯志鹏;李妍;时佳伟;孙建刚;韩笑;蔡心怡;龙瀛;白东霞;何云瑞;李然;黄俊桦设计研发完成,并于2023-10-23向国家知识产权局提交的专利申请。
本一种基于轻量级预训练模型的云运维知识图谱构建方法在说明书摘要公布了:本发明涉及云运维知识图谱技术领域,具体涉及一种基于轻量级预训练模型的云运维知识图谱构建方法,包括以下步骤:S1:获取云运维报告和云运维日志信息,并利用正则匹配规则对获取的数据进行样本集生成;S2:对样本集进行数据清洗,并采用BIO标注策略进行文本标注;S3:使用ALBERT‑LSTNet‑CRF模型对标注后的样本集进行实体抽取;S4:根据抽取结果构建出三元组并存入图数据库中,从而完成知识图谱的构建。本发明,通过使用基于ALBERT的轻量级预训练模型和高质量知识图谱,有效解决了云运维领域中的数据稀疏性和冷启动问题,同时提高了国网云平台运维的准确性和效率。
本发明授权一种基于轻量级预训练模型的云运维知识图谱构建方法在权利要求书中公布了:1.一种基于轻量级预训练模型的云运维知识图谱构建方法,其特征在于,包括以下步骤: S1:获取云运维报告和云运维日志信息,并利用正则匹配规则对获取的数据进行样本集生成; S2:对样本集进行数据清洗,并采用BIO标注策略进行文本标注; S3:使用ALBERT-LSTNet-CRF模型对标注后的样本集进行实体抽取; S4:根据抽取结果构建出三元组并存入图数据库中,从而完成知识图谱的构建; 所述S1中利用正则匹配规则对获取的数据进行样本生成具体步骤为: S11:创建一个预定义的正则表达式规则集,该规则集包括用于匹配关键词和短语的正则表达式; S12:扫描已获取的云运维报告和云运维日志信息,利用S11中预定义的正则表达式规则集进行文本匹配; S13:从扫描结果中筛选出与预定义的正则表达式匹配的文本片段,将该文本片段保存为初步样本; S14:对保存的初步样本进行二次筛选和整合,以生成可用于后续模型训练的最终样本集; 所述S2具体包括: S21:去除样本集中的特殊字符、空白、标点符号的非关键信息,以得到纯净的文本数据; S22:利用分词算法将纯净的文本数据分解为单词或词组,并为每个单词或词组分配唯一标识符; S23:应用BIO标注策略,使用预定义的标签集来对每个单词或词组进行标注,其中,B代表一个实体的开始,I代表实体的内部,而O代表非实体; S24:对已标注的单词或词组进行校验和修正,以确保标注准确性和一致性,从而生成最终用于模型训练的标注样本集; 所述S3中使用ALBERT-LSTNet-CRF模型对标注后的样本集进行实体抽取的步骤具体为: S31:输入的原始输入语句首先流经ALBERT层进行特征向量化,获得最终的特征向量T; S32:生成的特征向量T接着通过LSTNet层,进行上下文信息的捕获和整合; S33:通过CRF层进行序列标注,输出最优的实体标签; 所述S31具体包括: S311:所述原始输入语句包括监控信息异常告警、系统日志报错、公共组件类故障、分布式服务总线正常、云平台公共组件库无法链接集中式云资源管理系统; S312:输入层获得原始输入语句的收集到的信息语句,经过处理变为字序列为w=w1,w2,…,wn,作为之后ALBERT层的输入; S313:ALBERT层获取到子序列w=w1,w2,…,wn,将字序列变为之后神经网络所需要的向量序列X,X如下所示: 式中,H为向量维度;Eit为对字序列进行字嵌入编码;Eip为对字序列进行位置信息编码;Eis为对字序列进行语句信息编码,上述三者映射到高维度相加得到ALBERT层的输入序列,并最终通过计算多层Transformer的完整特征来获得最终的特征向量T; 所述S32具体包括: S321:卷积层获取到特征向量T后,对其进行维度增高的特征处理,输入数据矩阵经过第k个卷积核处理后,得到隐藏层hk为: 式中为卷积运算; S322:输入数据经过卷积层后,输出矩阵进入循环层和循环跳过层,循环层和循环跳过层使用RELU函数作为隐藏层的激活函数,具体的,在t时刻,循环层中循环单元的隐藏状态为: rt=σxtWxr+ht-1Whr+br ut=σxtWxu+ht-1Whu+bu ct=RELUxtWxc+rt☉ht-1Whc+bc ht=1-ut☉ht-p+ut☉ct 式中,⊙表示按元素点乘,σ为sigmoid函数,xt为t时刻的数据输入,rt、ut、ct分别为重置门、更新门、候选隐藏状态在t时刻的值,W、b分别为各模块的权重和偏置; S323:LSTNet循环跳过层计算过程如下: rt=σxtWxr+ht-pWhr+br ut=σxtWxu+ht-pWhu+bu ct=RELUxtWxc+rt☉ht-pWhc+bc ht=1-ut☉ht-p+ut☉ct 式中,p为隐藏单元的跳过数目,经过循环层与循环跳过层,最终输出的向量序列为hw=[h1,h2…hn]; 所述S33具体包括: S331:信息的向量序列hw=[h1,h2…hn]进入到条件随机场CRF层进行优化,CRF公式具体如下: S332:在输出层最终获得根据相邻关系所得的全局最佳标签序列,即可输出最优实体; 所述S4包括: S41:从CRF层输出的最优实体标签中,解析并识别关键实体,该关键实体包括故障代码、故障类型、云平台组件; S42:利用预定义的关系模板,结合上一步识别的关键实体,构造出有向三元组,每个三元组包括实体、实体和它们之间的关系; S43:在图数据库中创建节点和边来代表三元组中的实体和关系,对于每个新的三元组,检查图数据库中是否已经存在相应的节点和边,若不存在,则添加; S44:应用图数据库的事务管理机制,确保所有新添加的三元组均已持久化存储,从而完成知识图谱的构建; 云平台运维实体关系抽取同样基于ALBERT预训练模型,并且在LSTNet基础上引入多头注意力机制,其多头计算和映射如下: Q=K=V=H headi=AttentionQ,K,V MultiHead=Concathead1,...,headnWo htD=ht′+WMMultiHeadt+b 式中,Q、K、V分别为注意力函数中的查询、键、值向量,H为循环层的所有隐层单元向量,Attention为注意力函数,dk为键向量的维度,为第i个注意力头的输出,Multihead表示多头映射之后的输出,Concat为拼接函数,htD为在时刻k的预测结果,即通过卷积层、循环层、循环跳过层以及自注意力层的输出。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人国家电网有限公司信息通信分公司,其通讯地址为:100053 北京市西城区牛街街道白广路二条1号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励