中国人民解放军空军工程大学王聃获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉中国人民解放军空军工程大学申请的专利一种基于强化学习的通信干扰决策方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119788237B 。
龙图腾网通过国家知识产权局官网在2025-10-31发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411840772.6,技术领域涉及:H04K3/00;该发明授权一种基于强化学习的通信干扰决策方法是由王聃;梁佳;齐子森;许华;倪嘉成;牛嘉琪;王婧尧;陈柄仰设计研发完成,并于2024-12-13向国家知识产权局提交的专利申请。
本一种基于强化学习的通信干扰决策方法在说明书摘要公布了:本发明提出一种基于强化学习的通信干扰决策方法,包括下列步骤:建立通信对抗场景模型,依据场景确定指标以评估干扰效果;将学习过程抽象成马尔可夫过程,采用ε‑greedy策略确定Q值更新准则;根据不同通信对抗背景具体化马尔可夫过程、设置奖励函数;设计基于ε时变的Q‑Learning通信干扰决策方法具体步骤;对两个不同场景通信干扰实施进行实验仿真,从多个方面验证基本发明的优点。本发明通过对算法策略求解可以得到在通信对抗条件下我方实施干扰的最佳决策,完成对对方未知信号的跟踪与干扰,并在多个方面较好地优化了传统算法的缺陷。
本发明授权一种基于强化学习的通信干扰决策方法在权利要求书中公布了:1.一种基于强化学习的通信干扰决策方法,其特征在于,具体包括下列步骤: 第一步:建立通信对抗场景模型,依据所述场景确定指标以评估干扰效果,建立学习过程; 所述第一步具体为: 设定通信对抗场景为定频通信,通信方,即对方,以某一固定通信信道或者按照某种预设规律的信道集进行通信,对方会因受到干扰后切换通信信道,为了实现有效的通信干扰;干扰方,即我方,需要通过在线学习,学习到这种未知通信信道变化规律; 我方采用单频干扰作为干扰模型,记单频干扰信号的幅度为B,连续时间记为t,干扰信号的干扰频点为f,信号的初始相位为φ,圆周率为pi,则信号的时域表达式为: jt=Bcos2×pi×ft+φ1 复数表达式为 设对方有n个通信信道可以进行通信,且这n个信道满足相互独立且带宽相同的条件,对方通信场景划分为两个: 场景一为对方的通信信道未知,但是通信信道变化周期较长,即使受到我方干扰也长期保持不变,对方随机选择n个通信信道中的一个信道进行通信,我方利用干扰策略选择n个通信信道中的一个信道进行干扰,直至干扰方学习到该通信信道; 场景二为对方的通信信道未知,但是在受到干扰后会以一定的顺序切换至下一信道以躲避干扰,假设对方的信道切换策略是随机生成的一组随机序列,当我方的干扰信道与对方的通信信道相同时,对方根据信道切换策略切换至下一信道,我方继续利用干扰策略选择信道干扰,直至学习到通信方的信道切换策略; 利用干扰频率与目标信号频率的重合度评价干扰效果,并在后续过程利用频率重合度设计奖励函数; 频率重合度的定义如下: 设干扰信号频率为fi,目标信号频率为fc,则频率重合度εt表示为: εt=|fi-fc|fc3 通过分析表达式3得出结论:干扰频率与目标信号频率越接近,频率重合度越接近于0,即频率重合度越高; 第二步:将学习过程抽象成马尔可夫过程,采用ε-greedy策略确定Q值更新准则; 第三步:根据两个不同通信对抗场景具体化马尔可夫过程、设置奖励函数; 所述第三步具体为: 对于场景一,假设对方的通信信道的变化周期较长,在一定时间内通信信道不变,即对方的通信频率不变;在这种情况下,我方通过干扰效果的不断反馈来优化干扰频率; 设对方通信频率序列为{f1,f2,...,fn},分别对应的信道序列为{1,2,...,n},则状态空间S为{f1,f2,...,fn},动作空间A为{f1,f2,...,fn},初始状态s1下,对方通信频率为fi,我方首先采用频率fj实施干扰,此时的环境状态为s1={fj},利用频率重合度表示干扰实施的有效程度,若频率重合度越接近于0,则实施的通信干扰的有效性越高,反之,则干扰的效果不好,根据式3,此时频率重合度为: ε1=|fi-fj|fi6 比较ε1与0的关系,由此判断下一步动作及策略; 在学习过程中,智能干扰决策算法会根据当前状态反馈的干扰效果给出下一时刻我方应该选择的通信信道作为干扰动作并执行,在实施干扰后,对干扰实施的效果进行评估,并记录采取当前动作获得的奖励值,根据奖励值再对采取的策略进行优化,根据干扰实施的有效性,定义奖赏函数为: 由于干扰频率与目标频率相同时,εt存在等于0的情况,而此时表达式无意义,故为了避免式子无意义的情况,在分母上加上一个较小的数,这里选择0.01,因此奖励函数更正为: 当成功预测通信方的通信频率时,即εt=0时,有最大奖励值100; 根据式8,在状态s1下,干扰方选择动作fj的奖励值为 若此时ε1≠0,且利用策略选择的下一时刻的干扰动作为a1={fk},故下一状态更新为s2={fk}; 对于场景二,假定对方在受到干扰后会按照一定的顺序切换至下一信道的条件,即受到干扰后,对方的通信信道以一定的顺序选择下一时刻的通信信道;利用干扰效果的不断反馈来优化干扰频率,设对方通信信道序列范围为{1,2,...,n},每个信道对应的相应通信频率序列为{f1,f2,...,fn},则状态空间S为{f1,f2,...,fn},动作空间A为{f1,f2,...,fn},通信信道切换规律为{fi,fj,...,fk}i,j,...,k∈{1,2,...,n},且i,j,...,k各不相等,初始状态s1下,对方通信频率为fi,我方首先采用频率fm实施干扰,此时的环境状态为s1={fi,fm},同样利用频率重合度表示干扰实施的有效程度; 为尽可能快的学习到对方通信信道切换策略,设计对奖励函数进行优化,根据干扰实施的有效性,增加对连续命中干扰的情况的限制条件,定义奖赏函数为: 其中,k为连续命中因子,k满足当且仅当连续两次成功干扰时k=1,其他情况下k=0; 当成功连续两次干扰对方的通信信道时,给出附加奖励值5,状态s1下,若此时ε1=0,则表示该状态下成功干扰,对方根据信道切换规律切换至下一通信信道fj;利用策略选择的下一时刻的干扰动作为a1={fp},此时状态更新为s2={fj,fp},在状态s2下,若ε2=0,则表示该状态下也成功干扰,且此时满足连续干扰条件,故给出附加奖励值;当满足连续干扰时,该状态下的奖励值为105; 第四步:设计基于ε时变的Q-Learning通信干扰决策方法具体步骤; 第五步:对两个不同通信对抗场景通信干扰实施进行实验仿真和验证。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中国人民解放军空军工程大学,其通讯地址为:710043 陕西省西安市灞桥区长乐东路甲字一号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励