厦门渊亭信息科技有限公司黄在斌获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉厦门渊亭信息科技有限公司申请的专利一种数值推理大模型微调方法、系统、设备及存储介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120409708B 。
龙图腾网通过国家知识产权局官网在2025-10-10发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510897860.8,技术领域涉及:G06N5/04;该发明授权一种数值推理大模型微调方法、系统、设备及存储介质是由黄在斌;洪万福设计研发完成,并于2025-07-01向国家知识产权局提交的专利申请。
本一种数值推理大模型微调方法、系统、设备及存储介质在说明书摘要公布了:本发明提出了一种数值推理大模型微调方法、系统、设备及存储介质,该方法包括以下步骤:构建数值推理数据集,数值推理数据集包括输入文本和参考答案;在GRPO框架中引入多维度奖励机制,包括:融合数值一致性奖励、单位合理性奖励、算式显式性奖励及幻觉惩罚项,将上述多维度奖励机制融合生成总奖励函数;基于该总奖励函数,构建改进GRPO损失函数;采用改进GRPO损失函数对大语言模型进行微调训练,最终输出微调后的大语言模型。本发明特别适用于增强大语言模型在数值类知识领域的记忆能力和数值推理能力,能够减少其产生数值幻觉的倾向。
本发明授权一种数值推理大模型微调方法、系统、设备及存储介质在权利要求书中公布了:1.一种数值推理大模型微调方法,其特征在于,包括以下步骤: S1、构建数值推理数据集,所述数值推理数据集包括输入文本和参考答案; S2、在GRPO框架中引入多维度奖励机制,具体执行以下操作: S21、根据大语言模型输出内容的预测值和所述参考答案的真实值之间的误差,计算数值一致性奖励; S22、根据大语言模型输出内容的生成单位与所述输入文本的目标单位一致性,执行单位合理性奖励计算,具体包括以下子步骤: S221、通过正则函数分别提取所述大语言模型输出内容的生成单位与所述输入文本的目标单位的信息; S222、基于提取的所述生成单位和目标单位的信息,判断所述生成单位与目标单位的单位匹配性、单位推理链显式性及是否存在单位冲突,获得判断结果; S223、根据步骤S222获得的判断结果生成单位合理性奖励值,所述单位合理性奖励值的计算表达式为: 式中,表示单位合理性奖励;表示权重系数;表示单位匹配值,若大语言模型生成单位与目标单位一致或等价,则单位匹配值为1,否则为0;表示单位推理链显式值,若大语言模型输出内容中存在单位换算推理痕迹,则单位推理链显式值为1,否则为0;表示单位冲突值,若大语言模型生成单位与目标单位冲突,则单位冲突值为0,否则为1; S23、检测大语言模型输出内容是否包含运算表达式,并执行算式显式性奖励计算; S24、检测大语言模型输出内容是否包含虚构数值或存在逻辑矛盾行为,并执行幻觉惩罚项计算; S3、融合所述数值一致性奖励、单位合理性奖励、算式显式性奖励及幻觉惩罚项,生成总奖励函数;以及基于所述总奖励函数,构建改进GRPO损失函数; S4、采用所述改进GRPO损失函数对所述大语言模型进行微调训练,最终输出微调后的大语言模型。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人厦门渊亭信息科技有限公司,其通讯地址为:361000 福建省厦门市软件园二期望海路61号801单元N8-01;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励