中国计量大学杨滨帆获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉中国计量大学申请的专利一种基于深度强化学习的无人机辅助智能反射表面主被动传输优化方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115767581B 。
龙图腾网通过国家知识产权局官网在2025-06-27发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211118912.X,技术领域涉及:H04W24/02;该发明授权一种基于深度强化学习的无人机辅助智能反射表面主被动传输优化方法是由杨滨帆;李兴池设计研发完成,并于2022-09-13向国家知识产权局提交的专利申请。
本一种基于深度强化学习的无人机辅助智能反射表面主被动传输优化方法在说明书摘要公布了:本发明公开了一种基于深度强化学习的无人机UAV辅助智能反射表面IRS主被动传输优化方法。在UAV‑IRS的主被动传输系统中,UAV与IRS集成于一体以提高IRS的部署灵活性,利用UAV帮助IRS将主动信号反射到基站,同时IRS为近端UAV提供额外的信息位,并提高系统的频谱效率。首先,对IRS采用广义正交反射调制,以提高被动信息的传输可靠性,同时IRS全反射可最大化主动信号接收信号信噪比。然后,通过联合优化无人机飞行轨迹、IRS对物联网InternetofThings,IoT设备调度,以最大化成功传输比特数和最小化UAV能量损耗为目标函数。本发明使用DRL的深度Q网络算法来求解次优解,与基准解决方案相比,基于IRS的广义正交反射调制方案和基于DRL优化的方法可以有效地提高UAV‑RIS系统的能效性能。
本发明授权一种基于深度强化学习的无人机辅助智能反射表面主被动传输优化方法在权利要求书中公布了:1.一种基于深度强化学习的无人机UAV辅助智能反射表面IRS主被动传输优化方法,其特征在于,该方法基于UAV-IRS辅助物联网设备的上行链路通信系统实现,所述的UAV-IRS辅助物联网设备的上行链路通信系统包括一个具有Nr根接收天线的基站BS、K个具有单根发射天线的地面物联网IoT设备、一个集成L个智能反射表面单元于一体的无人机UAV,所述地面物联网IoT设备的主动信号采用M-QAM星座调制,UAV被动信号采用广义正交反射调制;所述优化方法包括以下步骤: 1对无人机可移动区域范围建立笛卡尔坐标系,表示在时隙n下无人机与IRS的三维坐标位置,n=1,2,...,N,N为时隙总数,其中,表示UAV在水平方向上的坐标,表示UAV在垂直方向上的坐标;[xBS,yBS,zBS]表示基站所在坐标位置,表示第k个IoT设备的坐标,k=1,2,...,K,K表示物联网设备总个数; 2设定UAV在垂直方向上可移动的高度范围:其中,Hmin和Hmax分别表示UAV在垂直方向上的最大和最小高度;在每个时隙下无人机移动的持续时间的取值范围:为其中,tmin和tmax分别表示UAV在时隙n下持续的最小和最大时间; 3根据步骤1和步骤2,通过距离与时间来计算出UAV在单位时间内的速度,UAV在时隙n的水平飞行速度表示为: 其中,为UAV在水平方向上最大移动速度,同时,UAV在时隙n的垂直方向飞行速度表示为: 其中,表示UAV在垂直方向上最大移动速度;若和等于0,则表示该时隙n下,UAV分别在水平方向和垂直方向处于静止状态; 4根据步骤3计算得到UAV在水平和垂直方向的速度后,UAV在时隙n下所需能耗表示为: 其中,P1、P2、P3、P4分别表示悬停状态下UAV的叶片轮廓功率、悬停状态下UAV的诱导功率、UAV在上升或下降状态下的恒定功率和UAV控制IRS所需功率;vtip表示UAV旋翼桨叶的尖端速度,d0表示UAV自身阻力比,l表示UAV的风轮实度,ρ表示空气密度,G表示旋翼桨盘面积,v0表示UAV在悬停时平均桨叶感应速度; 5对空地通信的信道进行建模,IoT-UAV和UAV-BS被建模为存在确定性视线分量的莱斯衰落信道;IoT-UAV链路的莱斯衰落信道模型和UAV-BS链路的莱斯衰落信道模型分别表示为: 其中,κ1、κ2分别表示两个链路的莱斯因子,和分别为IoT-UAV链路和UAV-BS链路的确定性视线路径;和分别表示IoT-UAV链路和UAV-BS链路的具有瑞利分布的非Los路径,非Los路径的每个元素都遵循的复高斯分布; 确定性视线路径的计算公式为: 其中,λ表示波长,d表示相邻两个IRS元件的间距,并假设且IRS元件之间没有耦合,ψAoA是到达的角度;考虑无人机的移动性所带来的信道衰落,在莱斯衰落信道模型基础上需要计算路径距离所带来的信道衰落,包含路径损失的IoT-UAV链路和UAV-BS链路分别被进一步表示为: 和 其中,τ表示路径损失指数,fc为载波频率,c为光速,和分别表示时隙n下第k个IoT设备与UAV之间的直接距离和UAV与BS之间的直接距离;由时隙n下被调度IoT的坐标和UAV的坐标计算得到,具体的计算公式为: 由时隙n下UAV的坐标和BS的坐标计算得到,可以被表示为: 6假设对IoT设备和UAV设备的输入比特流进行分组,每组分别被分为B1=log2M、B2=log2Q位比特,Q和M均满足2的整数次幂,M表示IoT设备采用M-QAM星座调制阶数,Q表示IRS分组后的广义正交反射模式个数; 7将IRS的L个反射单元划分为相邻的Lg组,每组由LLg个反射单元组成,假设L可以被Lg整除,从Lg组中激活g组IRS元件用于反射同相信号,1≤g≤Lg,其余Lg-g组重新激活用于产生正交信号以最大化主动信号的接收信噪比,共有种组合的广义正交反射模式,表示二项式系数,从种组合中选取前Q个广义正交反射模式用于UAV信息比特的传输;每一个广义正交反射模式表示为: 其中,1表示该IRS元件用于同相反射,j表示该IRS元件反射相位顺时针旋转 8主动信号所映射的每一个星座符号si经过功率归一化且满足E[|si|2]=1,i=1,2,...,M;B1位比特用于IoT的主动信号选择星座符号索引,B2位比特用于被动信号选择IRS的广义正交反射模式索引从而为近端UAV传输信息;接收时假定信道状态信息是完全已知的,接收信号表示为: 其中,diag·表示元素在主对角线上的对角矩阵,P表示IoT设备的固定发射功率,是加性高斯白噪声AWGN,其遵循分布CN0,N0INr,其中,INr表示单位矩阵,N0为复数噪声方差; 9利用最大似然ML检测器对IoT的主动信号和UAV的被动信号进行联合检测: 其中,和分别表示接收端检测出主动信号索引与被动信号索引,通过索引值还原出相对应的比特信息; 10在时隙n下,系统总的成功传输比特数表示为: 其中,Bw表示带宽,表示步骤9中检测出成功传输的比特数,表示在时隙n下是否调度第k个IoT设备与基站通信; 11在给定总时隙N下,能耗的优化问题被定义为: 其中,目标函数是在所有时隙下UAV的总能量消耗最小化; 在总时隙下,接收端所接收到的全部成功传输比特数为为综合衡量UAV-IRS系统的能效指标,其目标函数可以进一步表示为: 利用深度Q网络DQN来求解次优解,所述的深度Q网络DQN的构建过程如步骤12-16: 12将UAV作为代理对象,当前时隙下UAV的三维坐标位置作为状态,基于当前状态Sn输入到DQN的神经网络中,网络输出的离散动作行为An,在An中包含无人机分别在水平、垂直、调度和持续时间上的索引信息,DQN使用Qvalue来评估动作的价值以决定是否选择该动作An;环境Env根据UAV在当前状态Sn执行动作An后进入下一个状态Sn+1,并进行打分和给予奖励Rn; 13定义状态动作其中,a1n表示在水平方向上的运动索引,a2n表示在垂直方向上的运动索引,为IoT的调度,为持续时间的离散变量,其时间间隔为Δt;根据公式16,奖励函数被定义为: 其中,ζ={1,200}为惩罚系数,当UAV集成IRS的飞行区域超出指定移动区域的可控范围时,Env给予负反馈ζ=200; 14Env根据执行的动作An更新状态Sn+1时,Δx={0,+xu,-xu},xu表示x坐标轴上相邻两个坐标点之间的间距;同理,Δy={0,+yu,-yu},yu表示y纵坐标轴上相邻两个坐标点之间的间距;Δz={0,+zu,-zu},zu表示z坐标轴上相邻两个坐标之间的间距; 15步骤12中的Qvalue被定义为: QvalueSn,An=Ε[Un|Sn,An]18 其中,Ε表示期望,Un表示折扣回报;Un被表示为: Un=Rn+γRn+1+γ2Rn+2+…19 其中,γ表示折扣回报因子;QvalueSn,An为回报Un的条件期望,其目的是为了将Un中n时隙以后所涉及到的状态和动作消掉,并对当前状态Sn采取动作An的好坏进行打分;通过公式18,DQN在学习过程中采取遍历最大值的策略找出Qvalue最大值所对应的一个动作An,所述遍历最大值的策略函数表示为: 其中,π′·表示策略函数; 16在深度强化学习中需要收集训练数据集,每一个数据集表示为: 其中,Sn为当前状态、An为需要执行的动作、Rn为基于当前状态Sn执行动作An所获得的奖励、Sn+1为执行动作An进入下一个状态;UAV与环境进行交互来获取训练数据后,将每一条数据存入到经验池Bbuff中,当经验池中数据集的数量达到设定阈值Msize后,DQN开始对神经网络进行训练,在训练的过程中随着UAV与环境不断交互动态获取最新数据来替换经验池中陈旧的数据集。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中国计量大学,其通讯地址为:310018 浙江省杭州市下沙高教园区学源街258号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。