电子科技大学侯文静获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉电子科技大学申请的专利一种基于深度强化学习的离散连续混合动作对抗攻击方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120277664B 。
龙图腾网通过国家知识产权局官网在2025-08-19发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510766838.X,技术领域涉及:G06F21/55;该发明授权一种基于深度强化学习的离散连续混合动作对抗攻击方法是由侯文静;文红;马文迪;吴禹辉;姚瑞祥;严地宝设计研发完成,并于2025-06-10向国家知识产权局提交的专利申请。
本一种基于深度强化学习的离散连续混合动作对抗攻击方法在说明书摘要公布了:本发明公开了一种基于深度强化学习的离散连续混合动作对抗攻击方法,涉及人工智能安全领域。利用动态系统状态驱动的对抗扰动攻击方案,深度融合离散动作扰动与连续动作扰动方法,以最小化系统奖励为目标,在最大对抗扰动范围内增大输出动作损失。进一步结合均匀攻击、策略定时攻击方法,设计了特定的偏好函数灵活选择对抗性攻击触发时机方法,增强了攻击的隐蔽性与破坏力,提升了DRL模型攻击效果。结合基于迁移性范式的黑盒攻击框架,采用基于替代模型的对抗攻击迁移方法,通过构建替代模型逼近目标策略的决策行为,并利用替代梯度生成对抗扰动在缺乏目标模型梯度信息的情况下,仍可实现有效的模型攻击,提高了对抗攻击对DRL模型攻击的泛化能力。
本发明授权一种基于深度强化学习的离散连续混合动作对抗攻击方法在权利要求书中公布了:1.一种基于深度强化学习的离散连续混合动作对抗攻击方法,其特征在于,包括以下步骤: S1:基于马尔可夫决策过程构建基于任务卸载和资源分配的深度强化学习模型; S2:攻击者获取智能体在任务卸载系统中观测的原始状态,采用离散连续混合动作对抗扰动攻击方法生成对抗扰动,叠加原始系统观测量作为对抗扰动状态; S3:攻击者将生成的对抗扰动状态发送给智能体; S4:智能体根据获取对抗扰动状态,由Actor网络做出决策动作; S5:结合对抗攻击后受影响的决策动作,计算有无对抗扰动做出的动作的奖励的差值、总服务质量的差值,作为评估攻击有效的指标; S6:采用基于迁移性范式的黑盒攻击框架,训练具有相似策略分布的替代模型; S7:通过训练替代模型的梯度信息生成对抗状态扰动,利用对抗样本在决策边界上的迁移特性攻击原始模型; 所述奖励通过以下公式计算: 式中,Hx为阶跃函数,当x≥0时Hx取1,反之取0,x为括号内指代变量;为终端设备m在时隙t产生的任务数量,其中 为终端设备的集合,其中 表示对所有终端设备在时隙t产生的任务的总服务质量求和操作;表示对所有终端设备在时隙t产生的任务数量求和操作; 为总服务质量;终端设备m在时隙t生成的第n个任务的任务卸载决策表示为其中,表示终端设备m在时隙t生成的第n个任务在本地执行,表示终端设备m在时隙t生成的第n个任务将会卸载到边缘服务器执行;表示终端设备m生成的第n个任务的本地处理总时延,由排队时延和本地计算时延组成,表示终端设备m任务生成的第n个任务上传到边缘服务器处理的总时延,tol为容忍时间,rp为惩罚项。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人电子科技大学,其通讯地址为:611731 四川省成都市高新区(西区)西源大道2006号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。