西安交通大学闫大鹏获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉西安交通大学申请的专利一种基于强化学习的通信对抗干扰策略分配方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119997091B 。
龙图腾网通过国家知识产权局官网在2025-10-21发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510154454.2,技术领域涉及:H04K3/00;该发明授权一种基于强化学习的通信对抗干扰策略分配方法是由闫大鹏;关庆澍;朱政;曹晖;欧北设计研发完成,并于2025-02-12向国家知识产权局提交的专利申请。
本一种基于强化学习的通信对抗干扰策略分配方法在说明书摘要公布了:本发明公开了一种基于强化学习的通信对抗干扰策略分配方法,包括以下步骤:S1:建立无线通信对抗场景模型;S2:构建与对抗场景交互的马尔科夫决策过程模型;S3:建立包含评估网络、目标网络和策略网络的干扰资源分配模型;S4:组合并训练前述无线通信对抗场景模型、马尔可夫决策过程模型以及深度强化学习模型,完成干扰策略分配。本发明基于强化学习技术,通过构建并训练强化学习模型,达到准确、快速实现干扰策略分配的目的。
本发明授权一种基于强化学习的通信对抗干扰策略分配方法在权利要求书中公布了:1.一种基于强化学习的通信对抗干扰策略分配方法,其特征在于,包括以下步骤:S1:建立无线通信对抗场景模型;S2:构建与对抗场景交互的马尔科夫决策过程模型;S3:建立包含评估网络、目标网络和策略网络的干扰资源分配深度强化学习模型;S4:组合并训练前述无线通信对抗场景模型、马尔可夫决策过程模型以及深度强化学习模型,完成干扰策略分配; 在S1中,建立的无线通信对抗场景模型如下: 所述无线通信对抗场景模型是一种多对多模型,即干扰方具有多台干扰机,通信方具有多条通信链路进行组网通信,具体如下: 干扰方具有台干扰机,用集合表示,干扰机采用瞄准式干扰模式;通信方采用TCPIP协议进行通信,并使用条通信链路进行组网通信,通信链路的集合表示为,这些通信链路使用互不干扰且正交的等带宽信道,且各通信链路的相对重要性指数表示为; 在S3中,通过引入最大策略分布熵构建深度强化学习模型的目标函数,具体如下: 深度强化学习方法作为不需要先验信息的机器学习方法,采用试错方式进行学习,智能体不断与环境进行交互,在所处的环境下根据当前学到的策略采取动作,采取的动作会改变环境状态,智能体再根据环境给出的反馈,对策略进行更新与修正; 在目标回报函数中引入策略分布熵概念,在最大化累计奖励的同时最大化策略分布熵,使在策略优化过程中探索更多的策略; 策略分布熵的计算方法如下: 为当前策略分布熵,为当前策略; 通过引入最大策略分布熵,所构建的深度强化模型的目标函数为: 式中,argmax表示寻找使期望最大的策略,为策略形成的状态-动作轨迹分布,、、分别为第t步时的状态、动作和即时奖励,表示数学期望运算,表示某时段内的累计奖励,即累计干扰效能; 递归求解最优策略使用的函数迭代公式为: 函数表示在当前状态下的动作价值,为策略网络的更新系数,通过给定初值,能够在学习过程中自适应更新; 在S3中,所建立的包含评估网络、目标网络和策略网络的干扰资源分配深度强化学习模型具体如下: 在干扰资源分配深度强化学习模型中,评估网络和策略网络均为神经网络模型,其中策略网络为单网络结构,用于给出当前最优干扰资源分配方案;评估网络和目标网络使用孪生网络,即使用两个相同结构的神经网络,分别计算策略网络给出的分配方案的价值,并对比两个策略网络给出的分配方案价值,使用其中较大的方案价值,对策略网络进行参数优化;经过训练评估网络收敛到最佳价值函数,策略网络收敛到最优策略,即得到最佳资源分配方案; 在S3中,所建立的包含评估网络、目标网络和策略网络的干扰资源分配深度强化学习模型中的评估网络、目标网络具体如下: 孪生评估网络中,含有两组共四个网络:第一评估网络Q1、第一评估网络Q1对应的目标网络、第二评估网络Q2以及第二评估网络Q2对应的目标网络; 评估网络的更新规则如下: 步骤3.1:计算目标函数 其中,为目标Q网络在时对应的状态动作价值;为策略网络在状态下的重参数化动作;重参数化是一种便于求导的策略梯度计算技巧,即不利用策略网络输出的均值和标准差构成的正态分布直接采样得到动作,而是在采用中引入满足正态分布的随机噪声,使用公式产生动作; 步骤3.2:定义价值损失函数 其中,为评估网络参数,为目标网络参数,为当前状态采取动作的即时奖励,为经验回放批次大小; 步骤3.3:使用梯度下降法更新评估网络参数 其中,为梯度算子,为网络参数,为学习率; 步骤3.4:目标网络参数采用单步软更新方法,为柔性更新系数,更新方法如下: ; 在S3中,所建立的包含评估网络、目标网络和策略网络的干扰资源分配深度强化学习模型中的策略网络具体如下: 策略网络采用单层神经网络,采用引入最大策略分布熵的损失函数如下: 为策略网络在状态下输出的重参数化动作,为策略网络参数,为策略网络的更新系数; 使用梯度下降法更新策略网络参数的过程如下: 为策略网络学习率,为策略网络的梯度算子。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人西安交通大学,其通讯地址为:710049 陕西省西安市碑林区咸宁西路28号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励