国网福建省电力有限公司陈为标获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉国网福建省电力有限公司申请的专利一种电网文本数据分级分类方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN117251573B 。
龙图腾网通过国家知识产权局官网在2025-07-25发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202311352280.8,技术领域涉及:G06F16/35;该发明授权一种电网文本数据分级分类方法及系统是由陈为标;林育樟;林露馨;杨小娟;郑飘飘;何致远;江欣霖;陈奋增设计研发完成,并于2023-10-18向国家知识产权局提交的专利申请。
本一种电网文本数据分级分类方法及系统在说明书摘要公布了:本发明涉及一种电网文本数据分级分类方法,包括以下步骤:收集电网文本数据并对文本数据进行预处理以及增强处理,将增加后的文本数据构建为文本数据训练集;构建电网文本数据分级分类模型框架,将文本数据训练集输入框架得到训练集中变量的概率分布;通过变量的概率分布结果对电网文本数据分级分类模型框架的参数进行更新并再次进行训练;经过预设轮次的训练后得到最终电网文本数据分级分类模型框架,通过该框架对电网文本数据进行分级分类。
本发明授权一种电网文本数据分级分类方法及系统在权利要求书中公布了:1.一种电网文本数据分级分类方法,其特征在于,包括以下步骤: 收集电网文本数据并对收集的文本数据进行预处理,对预处理后的文本数据进行数据增强,通过增强后的文本数据构建文本数据训练集; 所述文本数据预处理包括数据清洗、分词以及去除停用词; 所述数据清洗步骤基于正则表达式构建文本数据清洗规则,通过文本数据清洗规则删除过滤冗余信息,同时需要避免删除重要信息导致语义损失; 所述分词步骤为将连续的文本数据切分成为多个具有语义单元的词语序列; 所述去除停用词步骤通过构建停用词表,基于停用词表通过字符匹配方式过滤文本数据中的无用词汇; 构建电网文本数据分级分类模型框架,所述框架由BERT预训练语言模型、双向门控循环网络模型、卷积神经网络模型以及输出层构成,基于BERT预训练语言模型的预训练参数对文本数据训练集进行微调; 将微调后的文本数据训练集输入BERT预训练语言模型中得到文本数据训练集的语义信息以及文本数据训练集中变量的概率分布,将文本数据训练集的语义信息输入双向门控循环网络模型中,双向门控循环网络模型根据输入数据得到文本数据训练集的全局语义特征,再将文本数据训练集的全局语义特征输入卷积神经网络模型中得到文本数据训练集的局部语义特征,局部语义特征经过输出层得到电网文本数据训练分级分类结果; 所述BERT预训练语言模型由掩码语言模型与邻句预测模型构成; 所述掩码语言模型用于随机抹去数据集中任一句子中的一个或几个词,并根据该句子中剩余的词预测被抹去的词; 所述邻句预测模型用于根据给定数据集中的随机两个句子,预测两个句子是否为相邻句子; 通过上述两个模型得到文本数据训练集的语义信息以及文本数据训练集中变量的概率分布; 上述电网文本数据分级分类模型框架预设训练轮数,每轮训练都会对收集的电网文本数据重新进行预处理以及数据增强,并根据上一轮训练中BERT预训练语言模型输出的文本数据训练集中变量的概率分布更新下一轮训练中各模型的参数,当训练轮数结束后得到训练完成的电网文本数据分级分类模型框架,通过该框架对电网文本数据进行分级分类。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人国网福建省电力有限公司,其通讯地址为:350003 福建省福州市鼓楼区五四路257号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。