湖南大学曹润卓获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉湖南大学申请的专利一种基于大模型的法律文书智能生成方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119669485B 。
龙图腾网通过国家知识产权局官网在2025-11-07发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411886279.8,技术领域涉及:G06F16/36;该发明授权一种基于大模型的法律文书智能生成方法及系统是由曹润卓;肖晟设计研发完成,并于2024-12-20向国家知识产权局提交的专利申请。
本一种基于大模型的法律文书智能生成方法及系统在说明书摘要公布了:本发明公开了一种基于大模型的法律文书智能生成方法及系统,涉及自然语言处理技术领域。该方法通过多渠道采集法律相关文本并预处理,构建法律领域知识图谱,以BERT模型预训练后融合图谱与文书样本进行微调训练;用户借助交互界面选定文书类型及输入参数并传递给模型生成法律文书初稿,再经多维度评估与优化循环,直至输出达标的法律文书;该方法涵盖数据处理、知识图谱构建、模型训练与文书生成评估全流程,利用多源数据丰富知识储备,结合预训练与微调提升模型针对性,多维度评估保障文书质量。有效解决法律文书撰写效率低、质量不稳定等问题,提高法律文书生成效率与质量,推动法律领域智能化发展。
本发明授权一种基于大模型的法律文书智能生成方法及系统在权利要求书中公布了:1.一种基于大模型的法律文书智能生成方法,其特征在于,包括以下步骤: 步骤1:多渠道搜集法律相关文本,并对收集的数据进行预处理; 步骤2:对预处理后的法律相关文本进行知识抽取和知识融合与消歧操作,将处理后的信息整合获得法律领域知识图谱; 步骤3:选择BERT模型进行预训练,包括模型初始化、配置超参数、确定预训练任务、数据准备以及预训练过程; 选择BERT-large架构包含24层Transformer编码器,隐藏层大小为1024,自注意力头数量为16;学习率设置在到之间;训练批次大小常见取值16、32;由于BERT-large模型的深度和复杂度,训练轮数一般设定在10-20轮;选择Adam优化器; 设计预训练任务,即掩码语言模型MLM任务和下一句预测NSP任务; 收集大规模的通用文本数据作为预训练素材,对这些数据进行预处理; 将预处理好的通用文本数据按照设定的批次大小依次输入到预训练模型中,针对每个批次的数据,模型根据设定的预训练任务进行前向传播计算,具体为: 对于MLM任务,使用交叉熵损失函数计算其预测词的概率分布与真实词的one-hot编码之间的交叉熵损失;假设词汇表大小为,被掩盖词的数量为,对于第个被掩盖词在词汇表中第个单词的预测概率为,真实标签为,则MLM任务的损失函数公式为: 其中,真实标签只有对应真实词的位置为1,其余为0; 对于NSP任务,同样使用交叉熵损失函数计算预测句子关系概率与真实标签之间的交叉熵损失;假设预测两个句子相邻的概率为,真实标签为,则NSP任务的损失函数为: 其中,真实标签为为1时表示相邻,为0时表示不相邻; 计算总损失; 利用优化算法Adam进行反向传播,调整模型的参数,使模型朝着降低损失值、更好地完成预训练任务的方向逐步优化;对于选定的Adam优化器,它会根据梯度的一阶矩估计和二阶矩估计以及设定的学习率来更新参数;其更新公式为: 其中和分别是一阶矩估计和二阶矩估计在第步的值,是第步的梯度,是学习率,、、是优化器的超参数,和是修正后的一阶矩估计和二阶矩估计,是模型参数在第步的值,是更新后的参数值; 按照设定的训练轮数对多个批次的数据进行反复迭代训练; 步骤4:将法律领域知识图谱数据与法律文书样本数据融合并调整输入格式,明确微调训练目标设定,按批次输入模型进行微调训练; 从构建好的法律领域知识图谱中提取关键信息,包括实体、关系以及属性,并对提取的实体和关系进行向量化表示; 对于每一份法律文书样本,遍历其中的文本内容,识别与知识图谱中的实体相对应的词汇或短语;将识别出的实体向量融合到法律文书样本的文本向量序列中; 根据输入要求,确定最大输入长度;在融合后的输入向量序列中添加特殊标记,以辅助模型理解文本结构和任务要求; 微调训练目标设定包括法律文书格式生成目标、法律术语运用准确性目标以及法律逻辑关系构建目标; 将融合法律领域知识图谱数据且调整好格式的法律文书样本按设定批次大小依次输入模型; 数据输入模型后,首先经过预训练的部分进行编码,通过多层Transformer编码器的自注意力机制,模型能够充分捕捉文本的语义特征; 将编码后的语义特征将被传递到用于生成特定文书类型的生成层和用于判断文书格式正确性的格式判断层,进行进一步的处理与分析; 根据模型输出与真实法律文书样本,按照设定的损失函数计算损失值,损失函数包括基本语言生成损失、法律术语损失惩罚项以及法律逻辑关系损失惩罚项,具体为: 基于语言生成损失:针对法律文书生成的语言部分,运用交叉熵损失函数;设模型预测的单词概率分布为,表示第个样本、第个单词位置预测词汇表中第个单词的概率,第个样本、第个单词位置预测词汇表中第个单词对于的真实标签,批次大小为,样本长度为,词汇表大小为,则语言生成部分的交叉熵损失公式为: 其中,是词汇表维度的索引; 法律术语损失惩罚项:设为法律术语损失的权重系数为强调法律术语的正确使用,添加惩罚项;定义函数计算第个样本中法律术语错误的数量;假设总共有个法律术语需检查,则法律术语损失惩罚项公式为: 法律逻辑关系损失惩罚项:对于法律逻辑关系部分,同样添加惩罚项;设为法律逻辑关系损失的权重系数,定义函数计算第个样本中法律逻辑关系错误的程度;假设总共有个法律逻辑关系需检查,则法律逻辑关系损失惩罚项公式为: 总损失函数:; 使用反向传播算法计算损失对模型参数的梯度,从最后一层开始,通过链式法则依次向前计算每层参数的梯度值,得到每个参数对应的梯度向量;采用Adam优化器更新模型的参数; 步骤5:用户通过交互界面选择文书类型并输入相关参数,传递给微调后的模型,模型依文书类型确定初稿框架,生成法律文书初稿; 步骤6:多维度评估初稿质量,若需优化则根据评估结果反馈至模型训练环节进行针对性改进,达标后输出符合要求的法律文书给用户。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人湖南大学,其通讯地址为:410082 湖南省长沙市岳麓区麓山南路麓山门;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励