Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 恭喜中国科学技术大学刘淇获国家专利权

恭喜中国科学技术大学刘淇获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网恭喜中国科学技术大学申请的专利临床麻醉领域实体抽取方法、装置、存储介质及电子设备获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114298046B

龙图腾网通过国家知识产权局官网在2025-06-24发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202111628377.8,技术领域涉及:G06F40/295;该发明授权临床麻醉领域实体抽取方法、装置、存储介质及电子设备是由刘淇;陈恩红;李徵;程明月;刘芷町设计研发完成,并于2021-12-28向国家知识产权局提交的专利申请。

临床麻醉领域实体抽取方法、装置、存储介质及电子设备在说明书摘要公布了:本发明涉及计算机应用技术与临床麻醉领域,公开了一种临床麻醉领域实体抽取方法、装置、存储介质及电子设备。方法包括:从知识来源获取多源的临床麻醉知识文本,进行预处理,形成分段的无标签短文本及主题;设计本领域的实体类型作为抽取对象,利用少量的先验知识预设出每种实体类型下的少量实体,用于后续构建训练模型所需文本数据;利用字符串匹配技术在原始数据中匹配实体抽取模型所需带标签训练数据,剩余数据作为待进行实体抽取的数据;利用基于BERT和CRF的模型对待进行实体抽取的数据进行编码,获得序列数据的标签,得到待抽取的文本数据中的实体。该方法实现了临床麻醉领域中长文本数据的实体抽取,大大减少了人工劳动,提升了工作效率。

本发明授权临床麻醉领域实体抽取方法、装置、存储介质及电子设备在权利要求书中公布了:1.一种临床麻醉领域实体抽取方法,其特征在于,所述方法包括: 步骤1、从知识来源获取多源的临床麻醉知识文本,并进行数据预处理,形成分段的无标签短文本以及其主题; 步骤2、设计一系列临床麻醉领域的实体类型作为实体抽取方法的抽取对象,利用少量的先验知识预设出每种实体类型下的少量实体,用于后续构建训练模型所需文本数据; 步骤3、利用字符串匹配技术在原始数据中匹配实体抽取模型所需带标签训练数据,剩余数据作为待进行实体抽取的数据; 步骤4、利用基于BERT和CRF的模型对待进行实体抽取的数据进行编码,获得序列数据的标签,得到待进行实体抽取的文本数据中的实体; 步骤3中采用字符串匹配技术结合少量的先验知识进行训练数据的生成,包括:将文本数据与步骤2定义的少量样例实体对应的文本进行字符串匹配,若匹配成功则将对应文本标记上相应实体类型作为序列标签,并将此部分文本数据加入到测试集中; 其中,针对临床麻醉领域同一名词表述的多样性,以及为了利用少量的先验知识产生尽可能多的训练数据,采用基于莱文斯坦距离计算相似度的模糊匹配进行实体字符串匹配; 所述莱文斯坦距离是一种编辑距离,即通过替换、插入或者删除字符的方式,由一个字符串转成另一个字符串所需的最小编辑操作次数;相应地,步骤3中定义两个字符串的相似度为其中,L是两个字符串间的莱文斯坦距离,a和b分别代表两个字符串的长度;并且,通过调整所述相似度阈值进行字符串匹配,能够从少量的先验知识中获取大量的训练数据用于模型训练; 步骤4中模型处理的数据包含了短文本Xi以及其主题Yi,相应编码模型分为主题编码模块和短文本编码模块; 为充分利用主题的信息,使用预训练好的BERT模型对于其主题进行编码处理;其中,所述BERT模型是自然语言处理技术中常用的文本编码器,由一个嵌入表示层和12层基于多头自注意力机制和点级前馈网构成的编码器构成;所述多头自注意力机制计算公式如下: MultiHeadAttnFl=[head1,head2,…,headh]WO headi=AttentionFlWi Q,FlWi K,FlWi V 其中,Fl是第l层网络的输入,当l=0时,框架将所述嵌入表示层获得的序列主题文字嵌入表示当作输入;WQ,WK,WV,WO∈Rd*d是预训练好的投影矩阵参数,d是嵌入表示向量空间维度,是防止注意力机制乘积过大的比例因子,Q,K,V分别是自注意力机制计算中所需的查询、键和值矩阵; 所述点级前馈网络计算公式如下: FFNx=ReLUxW1+b1W2+b2 其中,W1,b1,W2,b2是预训练好的参数,FFNx指代了输入为x的点级前馈网络,和分别代表第l层网络输入中的第1个和第n个字符; 将主题Yi对应文本按字分词后输入到预训练好的BERT模型可以获得主题字符串的语义表示向量qi∈Rd; 对于短文本Xi,本方法提出的短文本编码模型由一个嵌入表示层和三层特征抽取主干构成: 嵌入表示层分为字嵌入层、位置嵌入层以及部首嵌入层构成,其中,使用预训练好的词向量作为字嵌入层,将长度为n的文本中的每个字或者符号映射到d维嵌入表示向量空间,记为E∈Rn*d;此外,使用可以学习的位置嵌入表示层将文本序列的先后信息整合到学习过程中,记为P∈Rn*d;然后,针对医疗文本中共用一个部首的词语指代同一类实体,设计部首嵌入层对此信息进行建模,记为S∈Rn*d;最终,获得短文本xi的嵌入表示Ei=E+P+S; 本方法中的特征抽取主干网络由一个主题敏感注意力机制和一个点级前馈网络组成,主题敏感注意力机制用于提取在给定主题下短文本xi中重要的信息,相应计算公式如下: TopicAwareAttnFl=Attn*WO Attn=AttentionQWQ,FlWK,FlWV 其中,Fl是第l层网络的输入,当l=0时,框架将所述嵌入表示层获得的序列文字嵌入表示当作输入,也即是F0=Ei;Q是主题字符串的语义表示向量qi经广播后得到的n*d的矩阵,WQ,WK,WV,WO∈Rd*d是可以学习的投影矩阵参数,d是所述嵌入表示向量空间维度,是防止注意力机制乘积过大的比例因子; 特征抽取主干网络中的点级前馈网络是为了给自注意力模块中增加非线性的拟合能力,相应的计算公式如下: FFNx=ReLUxW1+b1W2+b2 其中,W1,b1,W2,b2是可以学习的参数; 在通过编码模型对短文本Xi以及其主题Yi进行编码后,使用CRF层作为最后的预测输出层,通过将编码后结果输入到CRF层,获取短文本Xi中每个字符的标签M=[m1,m2,…ml],其中,l是短文本Xi的长度,进而根据标签完成实体抽取的任务。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中国科学技术大学,其通讯地址为:230026 安徽省合肥市包河区金寨路96号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。