暨南大学刘子韬获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉暨南大学申请的专利一种多智能体协同的大型语言模型伪装攻击方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120316769B 。
龙图腾网通过国家知识产权局官网在2025-08-15发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510797146.1,技术领域涉及:G06F21/55;该发明授权一种多智能体协同的大型语言模型伪装攻击方法及系统是由刘子韬;李薛毅;周卓能设计研发完成,并于2025-06-16向国家知识产权局提交的专利申请。
本一种多智能体协同的大型语言模型伪装攻击方法及系统在说明书摘要公布了:本发明公开了一种多智能体协同的大型语言模型伪装攻击方法及系统,属于大型语言模型安全技术领域,包括:根据攻击目标语义与被攻击语言模型,结合梯度优化获得词汇候选集,基于词汇候选集生成附加扰动词序列的初始攻击提示语;基于辅助语言模型对扰动词序列的每个位置进行语义候选生成操作,获得语义候选集合;基于语义候选集合与词汇候选集获得伪装扰动词序列,基于伪装扰动序列获得伪装提示语;将伪装提示语输入被攻击语言模型,验证生成响应与目标非法响应的匹配程度,根据验证结果反馈用于优化词汇候选集的信号。本发明通过多智能体协同联动,在攻击成功率与语言自然性之间实现动态均衡,显著提升对安全机制的规避能力与实际部署适应性。
本发明授权一种多智能体协同的大型语言模型伪装攻击方法及系统在权利要求书中公布了:1.一种多智能体协同的大型语言模型伪装攻击方法,其特征在于,包括以下步骤: 根据攻击目标语义与被攻击语言模型,结合梯度优化获得词汇候选集,基于词汇候选集生成附加扰动词序列的初始攻击提示语; 基于辅助语言模型对初始攻击提示语的扰动词序列的每个位置进行语义候选生成操作,获得语义候选集合;基于语义候选集合与词汇候选集获得伪装扰动序列,基于伪装扰动序列获得伪装提示语; 将所述伪装提示语输入至被攻击语言模型,验证生成响应与目标非法响应的匹配程度,并根据验证结果反馈优化信号,用于优化词汇候选集; 获得伪装提示语的过程包括: 对扰动词序列的每个位置取语义候选集合与词汇候选集的交集,获得对应位置的伪装词候选集,若不是空集,则选择使被攻击语言模型输出响应的字符概率最大的伪装词替换对应位置的原词,获得伪装扰动序列,与所述攻击目标语义进行字符拼接,获得伪装提示语; 所述伪装提示语满足两个伪装性约束: ; ; 其中,表示伪装提示语,表示语言困惑度函数,为检测器函数,检测是否为恶意攻击,为困惑度预设阈值; 将所述伪装提示语输入至被攻击语言模型,验证生成响应与目标非法响应的匹配程度,若验证匹配成功,则对伪装提示语中的伪装扰动序列计算灵敏度梯度作为优化信号,其中,灵敏度梯度计算如下: ; 其中,为历史梯度权重超参数,为历史梯度缓存,表示响应端损失函数,表示对响应端损失函数的变量求取梯度。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人暨南大学,其通讯地址为:510632 广东省广州市天河区黄埔大道西601号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。