北京工业大学杜金莲获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉北京工业大学申请的专利中文电子病历的分词方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN113095074B 。
龙图腾网通过国家知识产权局官网在2025-08-19发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202110303360.9,技术领域涉及:G06F40/289;该发明授权中文电子病历的分词方法及系统是由杜金莲;密伟;苏航;金雪云设计研发完成,并于2021-03-22向国家知识产权局提交的专利申请。
本中文电子病历的分词方法及系统在说明书摘要公布了:本发明公开了中文电子病历的分词方法及系统,该方法的主体为基于GNN‑BiLSTM‑CRF的中文电子病历分词模型,包含步骤如下:数据集的构建及数据的处理。将来源于合作医院的中文电子病历数据进行人工标注,完成中文电子病历分词数据集的构建。将构建好的数据集中的数据转为CoNLL格式。训练中文电子病历分词模型。本发明提出的中文电子病历模型充分利用GNN及LSTM的优势,通过图结构和链结构交互捕获医疗术语构词规律等局部特征和上下文序列信息及长期特征,提高分词的质量。通过图神经网络高效将领域词典融入到分词模型中,通过其学习术语构词规律扩展了词典的应用价值,降低了模型对数据集的依赖同时缓解了医学术语繁多且与日俱增而导致的分词问题。
本发明授权中文电子病历的分词方法及系统在权利要求书中公布了:1.中文电子病历的分词方法,其特征在于:该方法的主体为基于GNN-BiLSTM-CRF的中文电子病历分词模型,包含步骤如下: 步骤1,数据集的构建及数据的处理; 将来源于合作医院的中文电子病历数据进行人工标注,完成中文电子病历分词数据集的构建;将构建好的数据集中的数据转为CoNLL格式; 步骤2,训练中文电子病历分词模型; 步骤2.1,提取步骤1中处理完毕后的部分数据,生成训练集,将训练集和词典输入到嵌入单元中,使用Word2vec进行嵌入将字和词转化为对应的向量输入到模型的下一层图神经网络GNN单元进行计算; 步骤2.2,通过嵌入后的字和词的向量来构建图,其中字作为图中的节点,词作为图中的边,然后通过基于多头注意力机制和门控机制的迭代聚合更新这种信息传递机制来学习医学领域术语构词规律局部特征;每次迭代中图的节点特征和边的特征都会得到更新,将其最后一次迭代后的图中每个节点的特征向量输入到模型的下一层; 步骤2.3,将图中的每个节点特征输入到双向长短期记忆网络LSTM单元中,以对每个字的上下文信息进行建模捕获序列信息和远程依赖特征来挖掘中文电子病历语料文本信息特征; 步骤2.4,对LSTM的输出使用条件随机场CRF单元来联合解码预测最佳标签序列,最终输出模型对每个字的预测标签; 步骤2.5,使用负对数似然函数作为损失函数来评价模型的预测值和真实值的差异程度,通过最小化损失函数来进行训练,得到中文电子病历分词模型; 所述图神经网络聚合运算使用多头注意力机制,其中节点特征集合和边特征集合eij为所有词典和文本相匹配的词即图中的所有边; 每个节点co聚合计算时经过以下三步: 第一步,先确定节点co需要聚合的特征信息节点聚合时为每个节点聚合其边特征和对应相连节点的特征通过词和词首词尾的特征提取习得词的边界信息;计算如公式1所示: 其中:“[||]”代表拼接操作,拼接后特征维度为2F;r∈No,No代表所有与co有边连接的节点下标集合,“|”代表或,即同时考虑co作为词首和词尾两种情况; 第二步,计算节点特征与聚合特征的注意力系数αro: 其中:Wc和Wg均为可训练的权重矩阵,其中将特征进行线性变换;Wo为可训练的权重矩阵,LR代表对使用LeakyReLU函数进行非线性激活; 第三步,使用多头机制来计算聚合后的特征 其中:K为多头注意力机制的头数;代表第k个注意力机制计算的归一化后的节点特征与对应聚合特征的注意力系数;Wk为可训练权重矩阵;对所有头进行加权平均,得到最终的输出特征 节点聚合的最终输出特征集合为 边eij聚合经过三步: 第一步,先确定边eij需要聚合的特征信息边聚合时为每条边聚合该边上的所有节点的特征信息,v∈Nij,Nij代表从节点i到节点j的所有节点的下标集合; 第二步,计算边特征与聚合特征的注意力系数αiv: 其中,We和Wv均为可训练的权重矩阵,其中Wi为可训练的权重矩阵, 第三步,使用多头机制来计算聚合后的特征 其中,K为多头注意力机制的头数;代表第k个注意力机制计算的归一化后的边特征与对应聚合特征的注意力系数;We为可训练权重矩阵; 边聚合的最终输出特征集合为 使用门控机制将聚合得到的特征有控制的流向节点和边,从而其学习聚合得到的局部特征信息; 输入t时刻节点特征集合和节点聚合的特征集合 输出t+1时刻 其中,W、V均为可训练的参数矩阵,b为可训练参数向量;⊙是HadamardProduct,矩阵中对应的元素相乘,要求两个相乘矩阵同型;σ为激活函数sigmoid;Softmax对两个门控进行归一化;tanh为激活函数,进行非线性变化;为节点o在t+1轮迭代中的节点特征; 计算两个门控和以及待学习的特征信息均由节点特征和聚合特征计算得出;用来控制遗忘特征中的部分信息,用控制学习特征中的部分信息;最终输出下一轮的节点特征 边更新: 输入t时刻边特征集合和边聚合得到的特征集合 输出t+1时刻边特征集合 其中,W、V为可训练的参数矩阵,b为可训练参数向量;⊙、σ、Softmax、tanh同节点更新;为边eij在t+1轮迭代中的边特征; 计算两个门控和以及待传递的特征信息通过边特征和聚合特征计算得来;用控制特征用控制特征最终输出下一轮的边特征 整个图神经网络每轮迭代,都经过一次完整的节点、边聚合,以及节点、边更新;经过m轮迭代,最终输出的节点特征集合作为图神经网络的输出; a,LSTM层使用双向LSTM分别捕获过去和将来的信息,将两个结果进行连接作为最终输出;其输入来自于图神经网络的输出,其具体计算过程如下: 首先计算三个门控以及待传递的特征信息均由和输出计算得出; 其中,W、V为可训练的参数矩阵,b为可训练参数向量; 门控用来控制遗忘前一单元传递过来的记忆特征中的部分信息,门控用来控制学习特征中的部分信息,生成当前单元记忆特征并将其传递到后一单元,如公式9所示: 将使用tanh函数进行非线性激活后,通过门控遗忘其中部分信息,得到当前单元的输出并将其传递到后一单元,如公式10所示: LSTM中的ht用于获得距离当前节点较近的节点传递过来的特征信息,Ct则用于记录远程的序列信息; b,CRF层通过CRF对整句文本的标签序列进行建模,根据对应的观测序列来预测对应的状态序列,标签序列y的得分sy|x计算如下: 其中:T是编码层输出进行线性变换后得到的矩阵,其中的矩阵元素代表当前字xi对应标签为yi时的分数;Z代表转移矩阵,通过训练进行学习;其中的矩阵元素代表从前一标签yi-1转移到当前标签yi的分数; 计算所有可能的标签序列的分数后使用softmax函数进行归一化,得到标签序列y的条件概率Py|x: 其中:Yx代表所有可能的标签序列。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京工业大学,其通讯地址为:100124 北京市朝阳区平乐园100号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。