西安建筑科技大学温浩获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉西安建筑科技大学申请的专利基于预训练和门控神经网络的语步识别方法、系统、设备及介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116561632B 。
龙图腾网通过国家知识产权局官网在2025-10-21发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310533340.X,技术领域涉及:G06F18/24;该发明授权基于预训练和门控神经网络的语步识别方法、系统、设备及介质是由温浩;王杰设计研发完成,并于2023-05-11向国家知识产权局提交的专利申请。
本基于预训练和门控神经网络的语步识别方法、系统、设备及介质在说明书摘要公布了:本发明提供基于预训练和门控神经网络的语步识别方法、系统、设备及介质,通过采集目标文段中的数据进行预处理,并按照预设语步打标签;对目标文段中长难复杂句进行甄别与拆分;搭建基于ERNIE_AT‑GRU语步自动识别模型;将拆分之后的数据输入ERNIE_AT‑GRU模型训练,经过轮次训练对测试数据进行语步识别测试,得到语步识别结果;基于预训练模型和门控神经网络的语步识别方法在具体操作时,利用结合大规模文本内容与知识图谱的ERNIE预训练模型学习文本深层语义,改善了传统机器学习未充分挖掘和利用词语之间的内在关系和特征的弊端,与现有技术相比,本发明有效提取文本中利于分类的重要部分,因而模型更加精简化,效率更高。
本发明授权基于预训练和门控神经网络的语步识别方法、系统、设备及介质在权利要求书中公布了:1.基于预训练和门控神经网络的语步识别方法,其特征在于,包括以下步骤: S1:采集目标文段中的数据进行预处理,并按照预设语步打标签; S2:对目标文段中长难复杂句进行甄别与拆分; 所述步骤S2中对目标文段的数据利用LTP工具进行依存句法分析,依据COO辨别语句中是否存在复杂关系;依据获取的并列关系标记实现长难复杂句的甄别与拆分,得到单语义数据,并按照8:2比例分为训练数据和测试数据; 所述LTP工具进行依存句法分析以及依据COO辨别语句中是否存在复杂关系包括以下步骤: A1:LTP工具对目标文段的数据进行分词、词性标记、依存句法分析; A2:将得到的数据整合为方便处理的格式,S=分词、词性标记、分词节点、父节点、依存关系标记; A3:遍历整合数据,获取分词父节点为根节点且依存关系标记为COO的句子,存储符合条件的语义复杂句; A4:遍历语义复杂句,对于符合条件的复杂句在并列关系前的逗号处将句子分开,得到单语义分句; 所述步骤S3中搭建语步自动识别模型包括以下步骤: B1:搭建ERNIE预训练模型,使用其Transformer-XL特征处理器融合多头自注意力机制学习文本语义得到融合多头注意力机制的词向量特征矩阵; B2:搭建带注意力机制的门控网络AT-GRU模块,将预训练模型所得词向量矩阵输入双向门控网络学习文本上下文特征,连接注意力机制聚焦用于文本分类的重要信息; B3:将ERNIE预训练模型与AT-GRU模块组合,得到ERNIE_AT-GRU模型; 所述步骤B1搭建ERNIE预训练模型包括以下步骤: C1:编写预训练模型调用接口,加载预训练模型所需要预训练参数信息;ERNIE预训练模型利用三段单字掩码、短语和实体层次的掩码信息整合方式得到词、短语、实体的完整语义; C2:经过三段掩码的词向量X:{wi1,wi2,...,wiN}输入Transformer-XL编码器,经过词嵌入Embedding过程xit=Wewit,t∈[1,N],We为Embedding层权重参数,将高维稀疏词向量矩阵转换为低维稠密词向量矩阵,即为每个语句的词嵌入向量; C3:对于单个self-attention计算所得的三个权重矩阵Wq、Wk、Wv将词嵌入向量与三者分别相乘所得矩阵Q、K和V表示目前词与句中其他词之间的相关度,为了防止结果过大,除以他们维度的均方根dk表示一个Q或K矩阵向量的维度,其中为可学习变量用于一段范围内相对距离计算,接着通过Softmax函数归一化,得到归一化后各个词与其他词的相关度,再与V矩阵相乘,即加权求和,得到每个词新的向量编码,其公式如下: C4:将每个单个self-attention计算所得Q、K、V矩阵按照切分的head合并,点乘权重W0,将切分后的head线性转换为原维度的矩阵,得到Multi-Head矩阵,其过程可以表示为: headi=AttentionQi,Ki,Vi,i=1,...,h; MultiHeadQ,K,V=Concactheadi,...,headhW0; C5:将Multi-Head计算所得Q、K、V矩阵输入Addamp;Norm层进行自注意力输入输出相加和归一化处理,再经过全连接层的前馈神经网络与Addamp;Norm层处理,得到融合多头注意力机制的词向量特征矩阵,矩阵中包含模型学习的文本特征以及文本所包含的上下文语义信息; S3:搭建基于ERNIE_AT-GRU语步自动识别模型; 所述步骤B3中将ERNIE预训练模型与AT-GRU模块组合,得到ERNIE_AT-GRU模型包括以下步骤: E1:预训练模型所得融合多头注意力机制的三维词向量特征矩阵输出维度转换为能输入门控网络的维度形状,将数据送入带注意力机制的门控网络; E2:在门控网络层之后加入Dropout层,随机忽略预设数量的神经元,防止模型过拟合; E3:接入全连接层,使用Softmax进行语步识别,输出分类标签; S4:将拆分之后的数据输入ERNIE_AT-GRU模型训练,经过轮次训练对测试数据进行语步识别测试,得到语步识别结果。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人西安建筑科技大学,其通讯地址为:710055 陕西省西安市碑林区雁塔路13号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励