华东理工大学蔡婷婷获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉华东理工大学申请的专利一种基于预训练模型和位置信息的文本结构化方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN112989836B 。
龙图腾网通过国家知识产权局官网在2025-09-09发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202110454738.5,技术领域涉及:G06F40/295;该发明授权一种基于预训练模型和位置信息的文本结构化方法是由蔡婷婷;叶琪;阮彤;张维彦;郑红设计研发完成,并于2021-04-26向国家知识产权局提交的专利申请。
本一种基于预训练模型和位置信息的文本结构化方法在说明书摘要公布了:本发明公开了一种基于预训练语言模型和位置信息的文本结构化方法。本发明包括以下步骤:步骤1:从新闻网站爬取文本作为原语料交由人工标注,并对其进行预处理;步骤2:使用预处理后的文本训练BERT‑CRF来识别姓名、性别、体貌特征、身高等通用实体;步骤3:将每条文本中的通用实体作为输入,训练多标签分类模型BERT‑Dense,输出每个实体所属的相关人群类型;步骤4:以相关人群姓名作为主体词,根据文本的结构特性,基于位置特征获取该主体词的属性,得到最终的多主体文本结构化。本发明适用于领域性的多主体文本结构化任务,通过分层结构化和基于位置信息组成多元组的方式,有效提高对新闻文本结构化的准确率和效率。
本发明授权一种基于预训练模型和位置信息的文本结构化方法在权利要求书中公布了:1.一种基于预训练模型和位置信息的文本结构化方法,具体步骤为: S1、从新闻网站爬取事件文本进行人工标注,得到文本结构化的有监督数据集A,并对所述数据集进行预处理作为后续模型的输入; S2、将预处理后的有监督文本作为输入,训练命名实体识别模型BERT-CRF,以BIO标签体系的形式输出文本中的通用实体,具体包括: S21、将预处理后的有监督文本作为输入,训练BERT-CRF模型; S22、将训练好的BERT-CRF模型预测测试集,得到一个维度为m*n*l的三维矩阵S,其中m为文本的数量,n为预先定义的最大序列长度,l为人工标注的通用实体在BIO标签体系下的种类数,三维矩阵S中的某个数S[i][j][t],其中0≤i≤m-1,0≤j≤,n-1≤t≤l-1,代表第i条文本中的第j个字符属于第t种标签的概率,其中,0≤p[i][j][t]≤1; S23、将BERT-CRF模型输出的三维矩阵S转换为二维矩阵M,M[i][j]=argmaxS[i][j],其中,0≤i≤m-1,0≤j≤n-1,M[i][j]对于第i条文本中的第j个字符,取其最大概率所对应的索引值; S24、基于矩阵M中的最大概率所对应的索引值,将其转化为BIO标签的形式,得到文本中通用实体的命名实体识别; S3、将每条文本中的通用实体作为输入,训练多标签分类模型BERT-Dense,输出每个实体所属的相关人群类型,具体包括: S31、将每条文本中的通用实体作为输入,以特殊字符“[unused1]”, “[unused2]”,“[unused3]”……来表示文本中的通用实体,训练多标签分类模型BERT-Dense; S32、整体模型的损失函数采用交叉熵,表示真实概率分布与预测概率分布之间的差异,优化目标为最小化交叉熵值,目标函数为: 其中,n代表样本数量,pxi代表第i个样本的真实概率分布,qxi表示预测概率分布; S33、将训练好的多标签分类模型BERT-Dense去预测测试集,得到一个x*y维度的二维矩阵H,其中,x代表有监督文本数据集A中通用实体的总数,y代表A中相关人群的种类数,二维矩阵H中的某个数H[i][j]代表第i个通用实体属于第j种相关人群的概率; S34、对于H[i]中的概率值,若结果大于0.5,则设置第i个通用实体的类型标签; S4、把相关人群姓名作为主体词,根据新闻文本的结构特性,基于位置信息获取该主体词的属性,得到最终的多主体文本结构化,具体包括: S41、将S2和S3步骤中所识别的相关人群的姓名作为主体词; S42、对于任一主体词,筛选出和该主体词属于同一相关人群的实体; S43、将出现在主体词之后,且距离主体词最近的实体作为该主体词的属性,组成一个多元组,得到最终的多主体文本结构化。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人华东理工大学,其通讯地址为:200237 上海市徐汇区梅陇路130号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。