杭州电子科技大学周仁杰获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉杭州电子科技大学申请的专利一种基于自监督学习的命名实体识别方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114239584B 。
龙图腾网通过国家知识产权局官网在2025-08-15发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202111539122.4,技术领域涉及:G06F40/295;该发明授权一种基于自监督学习的命名实体识别方法是由周仁杰;胡强;万健;张纪林;殷昱煜;蒋从锋设计研发完成,并于2021-12-15向国家知识产权局提交的专利申请。
本一种基于自监督学习的命名实体识别方法在说明书摘要公布了:本发明公开了一种基于自监督学习的命名实体识别方法,该方法包括:对数据集进行预处理,并利用处理好的数据集构建正例句子对和负例句子对,利用embedding编码器分别对正例句子对和负例句子对中的句子进行编码;在基于自监督学习的命名实体识别模型中根据不同的实体特征以及相似度矩阵学习到实体在不同语境中的不同释义,充分根据正例句子对以及负例句子对的相似度学习其特征向量,满足不同语料库的语种上的差异。本发明提高了命名实体识别的准确率,并通过知识图谱解决输出结果中因单词缩写引起的实体类型识别错误的问题,从而可以更准确地预测实体以及实体类型,使得具有多义性单词的词嵌入向量能更好的表示该词在当前语境中的释义。
本发明授权一种基于自监督学习的命名实体识别方法在权利要求书中公布了:1.一种基于自监督学习的命名实体识别方法,其特征在于该方法包括以下步骤: 步骤1:对数据集进行预处理; 1-1将数据集中已标注好实体类型的单词连词成句; 1-2将步骤1-1的句子si采用任意语种翻译成句子ai,然后再将句子ai用与si相同语种翻译成正例句子 步骤2:将步骤1中处理后的句子构建正负例句子对集合,其中正例句子对集合为集合组成,负例句子对集合为集合组成,负例句子对由原始句子和语料库中其余句子翻译后的句子组成; 步骤3:使用embedding编码器分别对正例句子对和负例句子对中的句子进行embedding编码; 步骤4:将embedding编码后的词嵌入向量输入至深度神经网络层DNN; 步骤5:将步骤4中得到的正例句子对的输出向量和负例句子对的输出向量做相似度计算,并将计算结果按照行拼接为一个全新的相似度矩阵Msim;并利用对比损失函数l通过反向传播,梯度下降算法优化步骤3中embedding编码器fk中的参数;具体操作如下: 5-1将DNN的输出向量通过相似度函数sim·做相似度计算,得到相似句子的正例相似度不相似句子的负例相似度然后将r+以及r-按照行聚合,聚合得到相似度矩阵Msim: 5-2使用如下对比损失函数l衡量正负例句子对在向量表示空间的相似度: 其中τ为超参数,exp·表示以自然常数e为底的指数函数,sum·函数代表矩阵元素按行相加; 5-3利用对比损失函数l通过反向传播,梯度下降算法优化embedding编码器fk中的参数; 步骤6:获取已标注实体类型的单词所构成的句子,构建数据集,然后进一步将其分为训练集和测试集; 步骤7:搭建基于自监督学习的命名实体识别模型,其包括依次级联的主网络、修正模块;然后利用训练集对主网络进行训练,再利用测试集对训练好的主网络进行测试,最后利用修正模块对测试后主网络输出结果进行修正; 所述主网络包括步骤5优化后embedding编码器fk、双向LSTM层、CRF层; 所述修正模块包括词组检索模块、实体类型修改模块;其中词组检索模块,用于获取主网络输入项的潜在实体集,并筛选出存在于公开知识图谱的潜在实体,然后将该潜在实体以及实体类型构建成潜在实体集PE;所述潜在实体包括各单词、由多个单词构成的词组;所述实体类型修改模块,用于接收词组检索模块输出的潜在实体集PE,以及主网络输出的实体类型标签,然后将主网络输出的实体类型与潜在实体集PE中主网络输入项中各潜在实体对应的实体类型进行比对,若一致则无需修改,若不一致则修正主网络的输出结果; 步骤8:利用测试好的基于自监督学习的命名实体识别模型实现文本的命名实体识别。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人杭州电子科技大学,其通讯地址为:310018 浙江省杭州市下沙高教园区2号大街;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。