Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 电子科技大学朱洪曦获国家专利权

电子科技大学朱洪曦获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉电子科技大学申请的专利一种基于博弈强化学习的网络安全防御方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119675938B

龙图腾网通过国家知识产权局官网在2025-07-29发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411787349.4,技术领域涉及:H04L9/40;该发明授权一种基于博弈强化学习的网络安全防御方法是由朱洪曦;郭孝通;任婧;宋彤雨;王雄;王晟;徐世中设计研发完成,并于2024-12-06向国家知识产权局提交的专利申请。

一种基于博弈强化学习的网络安全防御方法在说明书摘要公布了:本发明公开了一种基于博弈强化学习的网络安全防御方法,首先通过确定关键资产及重要性权重、确定攻击者动作空间、动作发生概率以及影响程度、确定防御者动作空间、动作发生概率以及成本,进而确立攻防博弈目标,然后,设定博弈环境。在此基础上,创建两个PPO智能体、网络搭建仿真环境,在攻防动态变化场景下,通过强化学习和博弈论的相互配合,交替训练攻击者策略和防御者策略,得到最优的网络安全防御策略,以更好地应对网络安全领域的各种挑战,提升整体的网络安全防御能力。

本发明授权一种基于博弈强化学习的网络安全防御方法在权利要求书中公布了:1.一种基于博弈强化学习的网络安全防御方法,其特征在于,包括以下步骤: 1、确立攻防博弈目标 确定关键资产及重要性权重:S={s1,s2,…sJ},W={w1,w2,…wJ},J关键资产数量; 确定攻击者动作空间Aattacker={aattacker1,aattacker2,…aattackerM}、动作发生概率P={p1,p2,…pM}、影响程度I={i1,i2,…iM},M为攻击者动作数量; 确定防御者动作空间:Adefender={adefender1,adefender2,…adefenderN}、动作发生概率Q={q1,q2,…qN}以及成本C={c1,c2,…cN},N为防御者动作数量; 确定防御目标函数F: 其中,T为一轮攻防交互时间步骤,wt为第t个时间步骤的攻击者动作针对的关键资产的权重,wt=wj,j=1,2,…,J,pt、it分别为第t个时间步骤的攻击者动作对应发生概率、对关键资产的影响程度,pt=pm, it=im,m=1,2,…,M,qt、ct分别为第t个时间步骤的防御者动作发生概率、成本,qt=qn,ct=cn,n=1,2,…,N; 2、设定博弈环境 攻击者的奖励rattackert=RAsuc攻击者状态,攻击者动作-RAcost攻击者状态,攻击者动作,其中,RAsuc攻击者状态,攻击者动作=pt×it,RAcost为采取aattackert后,被系统察觉到的风险,aattackert=aattackerm; 防御者的奖励rdefendert=RDsuc防御者状态,防御者动作-RDcost防御者状态,防御者动作,其中,RDsuc为采取adefendert后成功防御的奖励,RDcost为采取防御者动作的成本,adefendert=adefendern,RDcost防御者状态,防御者动作=qt×ct; 3、攻防博弈 交替训练攻击者策略和防御者策略: 3.1、初始化 初始化攻击者策略池Poolattacker、防御者策略池Pooldefender,设置最大迭代次数为K,初始化k=0; 3.2、防御者策略优化 清空经验缓冲区,初始化仿真环境E,防御者PPO智能体策略πdefender,从Poolattacker中选择一个策略πattacker给攻击者PPO智能体; 根据E,得到第1个时间步骤攻击者环境状态sattacker1和攻击者奖励rattacker1和防御者环境状态sdefende1和防御者奖励rdefender1,并将sattacker1送入攻击者PPO智能体,得到aattacker1,将sdefender1送入防御者PPO智能体,得到adefender1,将aattacker1、adefender1输入到E中,得到第2个时间步骤的sattacker2、rattacker2、sdefender2、 rdefender2; 从Poolattacker中选择一个πattacker给攻击者PPO智能体,将sattacker2送入攻击者PPO智能体,得到aattacker2,将sdefender2送入防御者PPO智能体,得到adefender2,将aattacker2、adefende2输入到E中,得到第3个时间步骤的sattacker3、rattacker3、sdefender3、rdefender3; 这样进行对抗训练,得到一系列对抗样本: sdefendert,adefendert,rdefendert,sdefendert+1 对抗样本放入经验缓冲区中,放满时,从中取出所有对抗样本,使用PPO算法更新πdefender; 判断更新后的πdefender与当前πdefender相比是否提升,如果有,则清空经验缓冲区,继续放入对抗样本,放满时,继续取出并更新πdefender,判断是否提升,如果有,则继续清空,继续放入对抗样本,直到没有提升,将新πdefender放入Pooldefende的最前面; 根据上述防御者策略优化方法对应优化攻击者策略; 3.3、k=k+1,判断k是否小于K,如果不小于,则结束,得到的πdefender为最优的网络安全防御策略,否则,返回步骤3.2。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人电子科技大学,其通讯地址为:611731 四川省成都市高新区(西区)西源大道2006号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。