西华大学杜亚军获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉西华大学申请的专利命名实体的识别方法和识别装置获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116306648B 。
龙图腾网通过国家知识产权局官网在2026-01-30发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310160997.6,技术领域涉及:G06F40/295;该发明授权命名实体的识别方法和识别装置是由杜亚军;李蔚;李显勇;刘佳;李艳丽;陈晓亮;谢春芝;范永全;陈娟;陈鹏设计研发完成,并于2023-02-24向国家知识产权局提交的专利申请。
本命名实体的识别方法和识别装置在说明书摘要公布了:本申请公开了命名实体的识别方法和识别装置,属于关键词提取技术领域,一种命名实体的识别方法,包括如下步骤:步骤100:将数据文本划分为标注数据集和未标注数据集,并对标注数据集进行标注;步骤200:计算出未标注数据集的样本的不确定分数;步骤300:计算出未标注数据集的样本的多样性分数;步骤400:将信息度高的未标注样本进行人工标注;步骤500:通过数据分类模块计算出未标注样本的预测分数;步骤600:将预测分数高于阈值的未标注样本作为标注样本,并重复执行步骤200~步骤600。本申请的有益效果在于,提供了一种能够减少人工标注量又能够保证识别准确性的命名实体的识别方法和识别装置。
本发明授权命名实体的识别方法和识别装置在权利要求书中公布了:1.一种命名实体的识别方法,其特征在于:包括如下步骤: 步骤100,数据获取模块获取网络上发布的文本数据,将文本数据划分为标注数据集和未标注数据集,采用多个预设的标签项对标注数据集中的数据进行人工标注; 步骤200:将标注数据集中的标注样本输入至不确定计算模块,对不确定计算模块训练,然后将未标注数据集中的未标注样本输入至不确定计算模块,计算出未标注样本的不确定分数; 步骤300:将步骤100中,标注数据集和未标注数据集输入至多样性计算模块中,多样性计算模块计算出标注数据集和未标注样本的相似度,以获得未标注样本的多样性分数; 步骤400:将每个未标注样本的多样性分数和不确定分数输入至数据信息度计算模块中,数据信息度计算模块根据预先设置的折衷参数,计算每个未标注样本的不确定分数和多样性分数的综合分数,并根据综合分数的高低筛选出若干个未标注样本进行人工标注以获得新增标注数据集; 步骤500:将增加了新增标注数据集的标注数据集和减少了新增标注数据集的未标注数据集输入至数据分类模块中;其中,标注数据集用于训练数据分类模块,以使得数据分类模块计算出未标注样本的预测分数; 数据分类模块包括BERT模型、LSTM模型以及CRF模型; 步骤500中,获取未标注样本和对应标签预测分数的步骤如下: 步骤501:将后未标注数据集U’输入到BERT模型中,BERT模型得到输入的每个未标注样本的注意力权重,然后获取每个未标注样本中关键词的特征; 步骤502:将获得的每个未标注样本的注意力权重和关键词的特征输入到BILSTM模型中,获取每个未标注样本中每个词相较于各个标签项的概率矩阵;对于输入至BILSTM中的每个未标注样本,会先计算未标注样本X中每个词前向传播的隐藏状态、后向传播的隐藏状态以及合并前后传播的隐藏状态ht; 步骤503:对于每个未标注样本相较于各个标签项的概率矩阵,CRF计算出不同标签排序的路径以及对应的预测分数,选择预测分数最高的序列作为最优路径,并获得最后的标注序列; 步骤600:数据选择模块将未标注样本中预测分数超过预设阈值的样本数据作人工标注数据,加入到标注数据集中,将未标注样本中预测分数低于预设阈值的样本作为未标注数据集,并重新执行步骤200~步骤600,直至未标注数据集中所有的未标注样本全部处理为标注样本。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人西华大学,其通讯地址为:610039 四川省成都市金牛区土桥金周路999号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励