中国科学院微电子研究所罗超获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉中国科学院微电子研究所申请的专利文本实体识别方法、装置获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115409034B 。
龙图腾网通过国家知识产权局官网在2025-11-11发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202110582797.0,技术领域涉及:G06F40/295;该发明授权文本实体识别方法、装置是由罗超;陈曙东设计研发完成,并于2021-05-27向国家知识产权局提交的专利申请。
本文本实体识别方法、装置在说明书摘要公布了:本申请的实施例提供了一种文本实体识别方法、装置。该方法包括:获取待识别文本;通过多种词向量模型对所述待识别文本进行特征转换,得到所述待识别文本的多个文本特征向量;由预先训练的神经网络模型学习所述多个文本特征向量,得到实体特征向量,所述实体特征向量用于表征所述待识别文本中的实体特征;基于所述实体特征向量,通过条件随机场模型确定所述待识别文本对应的实体标签序列,以识别出所述待识别文本中各个实体的实体标签。本申请实施例的技术方案可以提高对文本实体进行识别的准确率。
本发明授权文本实体识别方法、装置在权利要求书中公布了:1.一种文本实体识别方法,其特征在于,所述方法包括: 获取第一待选文本集,所述第一待选文本集包括多条第一待选文本;通过远监督模型为所述第一待选文本集中的第一待选文本生成标签序列; 获取第二待选文本集,所述第二待选文本集包括多条第二待选文本,其中,每一条第二待选文本配置有实体标签序列;基于所述第二待选文本集,训练强化学习模型,所述强化学习模型用于识别待选文本中的不完整标签序列或噪声标签序列; 通过所述强化学习模型,从所述第一待选文本集中选择具有完整标签序列或非噪声标签序列的第一待选文本作为训练文本,得到训练文本集,所述训练文本集中包括多条训练文本,其中,每一条训练文本配置有实体标签序列; 基于所述训练文本集中的多条训练文本,通过迭代的方式对神经网络模型和注意力机制模型进行有监督训练,并基于所述训练文本配置的实体标签序列调整所述神经网络模型和所述注意力机制模型,直至所述神经网络模型和所述注意力机制模型收敛; 获取待识别文本; 通过多种词向量模型对所述待识别文本进行特征转换,得到所述待识别文本的多个文本特征向量; 由所述神经网络模型学习所述多个文本特征向量,得到实体特征向量,所述实体特征向量用于表征所述待识别文本中的实体特征; 通过所述注意力机制模型为所述实体特征向量中的各个特征值分配权重,所述权重用于区分所述待识别文本中各个字符串在实体特征上的重要程度;基于所述权重调整所述实体特征向量中的各个特征值,以更新所述实体特征向量; 基于所述实体特征向量,通过条件随机场模型确定所述待识别文本对应的实体标签序列,以识别出所述待识别文本中各个实体的实体标签。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中国科学院微电子研究所,其通讯地址为:100029 北京市朝阳区北土城西路3号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励