西安电子科技大学刘若辰获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉西安电子科技大学申请的专利基于词汇增强和字符外部信息的中文实体识别模型和方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119398054B 。
龙图腾网通过国家知识产权局官网在2025-10-28发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411501310.1,技术领域涉及:G06F40/295;该发明授权基于词汇增强和字符外部信息的中文实体识别模型和方法是由刘若辰;杨嘉辉;张西龙;吕浩源设计研发完成,并于2024-10-25向国家知识产权局提交的专利申请。
本基于词汇增强和字符外部信息的中文实体识别模型和方法在说明书摘要公布了:本发明公开了一种基于词汇增强和字符外部信息的中文实体识别模型和方法,解决了未能充分利用汉字外部信息和仅依赖词频确定匹配词静态权重的问题。中文实体识别模型依次连接有汉字信息提取部分、含有动态匹配词特征的汉字特征提取部分、增强字符嵌入和部件嵌入的双路编码器部分以及解码输出部分。实现方法包括有数据清洗、含有动态匹配词特征的汉字特征提取、增强字符嵌入和部件嵌入的双路编码和解码输出。本发明用双路编码结构将汉字的词汇、拼音和部件信息融合于模型;提取匹配词特征时用动态权重对匹配词嵌入加权,更均衡合理,避免权重分配过于偏向高频词,提高了泛化能力和识别精度。用于从非结构化的输入文本中抽取中文实体。
本发明授权基于词汇增强和字符外部信息的中文实体识别模型和方法在权利要求书中公布了:1.基于词汇增强和字符外部信息的中文实体识别装置,其特征在于,依次连接有汉字信息提取部分、含有动态匹配词特征的汉字特征提取部分、增强字符嵌入和部件嵌入的双路编码器部分以及解码输出部分;其中所述汉字信息提取部分设有字符提取模块,基于字符提取模块还设有匹配词提取模块、拼音提取模块和部件提取模块;所述含有动态匹配词特征的汉字特征提取部分包括有字符特征提取模块、动态匹配词特征提取模块、拼音特征提取模块和部件特征提取模块,其中字符特征提取模块以汉字信息提取部分中的字符提取模块的输出作为输入获取字符嵌入;动态匹配词特征提取模块首先以汉字信息提取部分中的匹配词提取模块的输出和字符提取模块的输出共同作为输入,再基于注意力机制对各匹配词嵌入加权求和得到动态匹配词特征嵌入;拼音特征提取模块以汉字信息提取部分中的拼音提取模块的输出作为输入提取拼音特征嵌入;部件特征提取模块以汉字信息提取部分中的部件提取模块的输出作为输入提取部件特征嵌入;所述增强字符嵌入和部件嵌入的双路编码器部分包含两条支路,分别用于编码部件嵌入的上下文特征和融合了动态匹配词特征和拼音特征的增强字符嵌入的上下文特征,然后再将部件上下文特征和增强字符上下文特征拼接作为双路编码器输出;所述解码输出部分用于解码编码器输出得到最佳标签序列; 其中动态匹配词特征提取模块中对各匹配词嵌入加权求和得到动态匹配词特征嵌入时,各个匹配词的动态注意力权重α是通过注意力机制计算字符嵌入与各个匹配词嵌入的相关性得到的,其计算公式如下: 其中x和y分别是字符嵌入和匹配词嵌入,WQ和WK为可学习参数,为缩放因子; 为了保留分割信息,按照字符和匹配词的关系将匹配词划分为B、M、E、S四组,其中在组B中字符和匹配词的关系为字符是匹配词的首字符,在组M中字符和匹配词的关系为字符出现在匹配词中间,在组E中字符和匹配词的关系为字符是匹配词的尾字符,在组S中字符和匹配词的关系为字符和匹配词相等;对四组匹配词中各组匹配词的词嵌入加权求和得到各组匹配词的加权词嵌入 其中αω是匹配词ω的注意力权重,eωω是匹配词ω的嵌入表示; 将四组加权词嵌入拼接起来即可得到最终的动态匹配词嵌入表示vi,其计算公式如下: vi={viB;viM;viE;viS}; 其中viB、viM、viE、viS分别为B、M、E、S四组匹配词的动态加权词嵌入。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人西安电子科技大学,其通讯地址为:710071 陕西省西安市雁塔区太白南路2号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励