北京理工大学罗森林获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉北京理工大学申请的专利融合知识提示的法律文本小样本命名实体识别方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115062104B 。
龙图腾网通过国家知识产权局官网在2026-03-24发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210535070.1,技术领域涉及:G06F16/334;该发明授权融合知识提示的法律文本小样本命名实体识别方法是由罗森林;程瑶;慕星星;吴舟婷;吴杭颐设计研发完成,并于2022-05-17向国家知识产权局提交的专利申请。
本融合知识提示的法律文本小样本命名实体识别方法在说明书摘要公布了:本发明涉及融合知识提示的法律文本小样本命名实体识别方法,属于自然语言处理与机器学习领域。本发明首先定义裁判文书的提示性模板、标签集和自然词集的映射关系,从中国裁判文书网平台获取了2760篇裁定书和判决书文档;然后采用Bert模型对案件陈述和判决结果句子的嵌入向量进行编码,通过注意力加权得到句子的特征表示,结合构造的模板指导生成式预训练模型GPT生成词的类别向量;最后,利用全连接层将句子向量转化为跨度向量,生成语义标签,最小化其与标签向量的损失函数。本发明有效缓解了在法律领域下,由于其标注样本较少、与通用领域的实体类型分布不同造成的过拟合与分类不准确的问题,提升了法律实体识别的准确率和模型的迁移能力。
本发明授权融合知识提示的法律文本小样本命名实体识别方法在权利要求书中公布了:1.融合知识提示的法律文本小样本命名实体识别方法,其特征在于所述方法包括如下步骤: 步骤1,从中国裁判文书网获取原始裁定书和判决书两类文书数据,构建裁判文书的原被告姓名、案件属性、依据法条、责任承担与涉案财产五类命名实体,通过去除停用词操作得到处理后的民事案件裁定书和判决书; 步骤2,构建裁判文书中的实体和非实体知识模板、标签词和自然词映射关系;使用法律领域的模板和语义空间的标签集来引导Bert预训练模型,依据裁判文书的原被告姓名、案件属性、依据法条、责任承担与涉案财产五类实体的特点,设为“[X1],[X2]是一个[MASK]类实体”,设为“[X1],[MASK]不是一个实体”,[X1]表示句子级别的裁判文书,[X2]处是由预训练模型得到的实体特征向量,[MASK]处是待预测生成的实体类别标签; 步骤3,构建裁判文书命名实体识别模型,模型由Bert预训练模型、GPT生成式预训练模型、全连接层组成,将句子级裁判文书序列输入模型中,Bert对句子进行编码,使用GPT模型解码,结合提示模板微调预训练模型,预测生成掩码处的实体类别标签,对每个实体的类别进行标签映射,构建损失函数优化标签分类结果;具体包括:结合Bert预训练模型最后一层的隐变量和法律模板,利用GPT生成式预训练模型,使用公式和预测掩码处的实体类型,U表示token嵌入向量,表示token嵌入矩阵,表示位置嵌入矩阵;然后使用公式计算属于第l类的token非归一化概率,表示实体标签集合,K表示文档中的句子数,N表示句子中的字数,k、n分别表示第k个句子和第n个字;表示第t个token是第L类的概率;生成语义标签空间的公式是: 表示第k个句子的语义标签空间;,表示实体标签集合L中的类别,表示第t个token是第类的概率,表示第k个句子中第n个token所属标签子空间,由不同token的类别标签组成;最后通过损失函数优化标签分类结果,表示标签分类的损失函数,l表示实体类别数,若第k个句子中第n个词的真实标签是l,那么,否则,;表示模型预测出的第n个词属于第l类实体的概率。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京理工大学,其通讯地址为:100081 北京市海淀区中关村南大街5号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励