Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
专利交易 商标交易 积分商城 国际服务 IP管家助手 科技果 科技人才 会员权益 需求市场 关于龙图腾 更多
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 中国电子科技网络信息安全有限公司;中国电子科技集团公司第三十研究所骆妲获国家专利权

中国电子科技网络信息安全有限公司;中国电子科技集团公司第三十研究所骆妲获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉中国电子科技网络信息安全有限公司;中国电子科技集团公司第三十研究所申请的专利一种类别自适应强化学习的大模型安全加固方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN121389106B

龙图腾网通过国家知识产权局官网在2026-03-24发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511971549.X,技术领域涉及:G06F21/52;该发明授权一种类别自适应强化学习的大模型安全加固方法及系统是由骆妲;孙治;王一凡;廖珊;熊坤;张玲;饶志宏设计研发完成,并于2025-12-25向国家知识产权局提交的专利申请。

一种类别自适应强化学习的大模型安全加固方法及系统在说明书摘要公布了:本申请公开了一种类别自适应强化学习的大模型安全加固方法及系统,该方法包括:将从大模型安全评测系统获取的安全风险数据划分为多个安全类别,通过辅助生成大语言模型生成对应的安全响应,构建各安全类别的训练数据集;通过对比原始大模型回答与各安全类别的训练数据集中的安全响应,构建损失函数,通过最小化该损失函数训练对应的奖励模型;基于各安全类别对应的奖励模型及其奖励缩放因子,得到优势函数;以优势函数为基础构建整体目标函数,在大模型训练过程中交替迭代优化各安全类别的目标函数,使策略模型能够同时学习并对齐多安全类别的安全偏好,最终得到经多安全类别联合优化的大模型。本申请增强了模型的安全性与鲁棒性。

本发明授权一种类别自适应强化学习的大模型安全加固方法及系统在权利要求书中公布了:1.一种类别自适应强化学习的大模型安全加固方法,其特征在于,包括: 步骤1:将从大模型安全评测系统获取的安全风险数据划分为多个安全类别,针对每个安全类别的有害指令,通过辅助生成大语言模型生成对应的安全响应,从而构建各安全类别的训练数据集; 步骤2:针对各安全类别,通过对比原始大模型回答与各安全类别的训练数据集中的安全响应,构建损失函数,通过最小化该损失函数训练对应的奖励模型; 步骤3:基于各安全类别对应的奖励模型及其奖励缩放因子,得到优势函数; 步骤4:以优势函数为基础构建整体目标函数,在大模型训练过程中交替迭代优化各安全类别的目标函数,使策略模型能够同时学习并对齐多安全类别的安全偏好,最终得到经多安全类别联合优化的大模型; 所述步骤3包括: 利用奖励模型和奖励缩放因子,计算群体相对策略优化GRPO的优势函数;在GRPO的每次迭代中,从采样一个批次的有害指令,其中,为个有害指令集合,为从第个安全类别的所有有害指令集合中采样的第个批次的有害指令的集合;对于当前批次中的每个有害指令,根据当前大模型生成策略生成个候选响应集合,其中,为第个安全类别对应的第个有害指令,为当前大模型生成策略下第个安全类别对应的第个有害指令的候选响应,计算有害指令对应的奖励缩放因子;依据个候选响应的奖励分数集合,为奖励模型参数,计算优势函数: 其中,为第个安全类别对应的优势函数;表示有害指令对应的候选响应的奖励分数;为依据有害指令抽取的当前批次样本的奖励均值,用于标准化奖励分布;为依据有害指令抽取的当前批次样本的奖励标准差,用于归一化奖励波动,奖励标准差包含稳定项;作为优势估计,用于输入GRPO的剪切目标中,以实现基于安全类别难度自适应的策略优化; 获取所述奖励缩放因子的过程,包括: 对于第个安全类别的有害指令及其对应的安全响应的问答对,利用原始大模型策略生成原始响应,构造配对响应数据集: 其中,为第个安全类别对应的配对响应数据集,为有害指令配对的安全响应和原始响应集合,为针对第个安全类别对应的第个有害指令的安全响应; 利用第个安全类别对应的奖励模型,计算奖励差距: 其中,为第个安全类别的第个有害指令对应的安全响应与原始响应之间的奖励差距,为安全响应的奖励得分,为原始响应的奖励得分; 通过以下公式对奖励差距进行处理,得到平均奖励差距估计: 其中,为平均奖励差距估计; 通过以下公式得到奖励缩放因子: 其中,是最初的默认缩放系数,用于设定奖励缩放的基准水平;用来控制静态部分与动态部分的权重比例;是可调的超参数,调节对安全类别难度敏感度;限制,以避免系数过度更新。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中国电子科技网络信息安全有限公司;中国电子科技集团公司第三十研究所,其通讯地址为:610207 四川省成都市双流区西南航空港经济开发区工业集中区内;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。