重庆邮电大学刘焕淋获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉重庆邮电大学申请的专利基于深度强化学习光无线通信中设备间能量感知频谱管理获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119255381B 。
龙图腾网通过国家知识产权局官网在2026-03-20发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411359482.X,技术领域涉及:H04W72/0453;该发明授权基于深度强化学习光无线通信中设备间能量感知频谱管理是由刘焕淋;候杨洋;陈勇;陈浩楠;张玉兰;陈科设计研发完成,并于2024-09-27向国家知识产权局提交的专利申请。
本基于深度强化学习光无线通信中设备间能量感知频谱管理在说明书摘要公布了:本发明涉及基于深度强化学习光无线通信中设备间能量感知频谱管理方法,属于光无线通信领域。本发明提出了一个多智能体强化学习框架优化D2DDevicetoDevice,设备到设备选择频谱的性能,通过比较D2D复用可见光或无线通信频谱的等效信干噪比值,构造D2D的频谱可复用关联矩阵,设计将D2D节点的剩余能量和系统能效作为D2D复用光无线通信频谱的奖励函数值,将最大化D2D复用频谱获得的累积折扣奖励的期望值作为优化目标,通过引入基于合作博弈的D2D多智能体行动者‑评论家深度强化学习算法提高D2D频谱复用的累积折扣奖励的期望值。本发明所述方法可以改善室内光无线通信的小区间负载不均衡、边缘设备通信质量低的问题,提升边缘设备的通信能力和系统的能效。
本发明授权基于深度强化学习光无线通信中设备间能量感知频谱管理在权利要求书中公布了:1.基于深度强化学习光无线通信中设备间能量感知频谱管理方法,其特征在于:该方法包括以下步骤: S1:输入D2DDevicetoDevice,设备到设备设备集合N,VLCVisibleLightCommunication,可见光通信接入点AccessPoint,AP集合,各VLCAP的发射功率PV和带宽BV;RFRadioFrequency,射频AP的发射功率PR和总带宽BR,使用RF通信的蜂窝用户集合M;接入VLC和RF的用户的频谱采用正交频分复用方式,D2D设备间通信需要复用RF的频段或复用VLC载波资源;根据朗伯辐射模型,计算采用VLC载波的VLC-D2D发射机与接收机之间的信道增益和可达速率值,根据路径损耗模型,计算采用RF频段的RF-D2D之间的信道增益和可达速率值; 其中,计算VLC-D2D和RF-D2D的可达速率的步骤为: S101:在室内VLC-RF系统中,存在M个使用RF通信的蜂窝用户设备,保存在集合M中;室内存在N个D2D对,保存在集合N中;当D2D用户设备D2DUserEquipment,DUE复用RF的蜂窝用户设备CellularUserEqupment,CUE的频谱传输数据时,D2D被称为RF-D2D;当DUE复用VLC的载波通信时,D2D被称为VLC-D2D;RF的总带宽BR平分给M个蜂窝用户,每份带宽的中心频率为调制载波的中心频率;VLC主要提高室内M个用户的下行通信,所有VLCAP的总带宽采用正交频分多址,其子载波数目大于M,因此,下行光线传输可以避免干扰;每个RF-D2D在每个时隙中只能复用一个RF的子载波,RF的子载波在每个时隙中可以被多个RF-D2D复用,使用相同频谱的D2D之间,CUE和复用其载波通信的RF-D2D之间都可能发生信号干扰;VLC-D2D复用VLC的光子载波通信; S102:根据朗伯辐射模型,计算VLC-D2D通信的信道增益; 其中,根据朗伯辐射模型,第n对VLC-D2D之间的信道增益为: 上式中,θ代表朗伯辐射系数,且θ=-ln2lncosφ12;φ12表示使用VLC的D2D发射机的半功率辐射角,φ表示D2D发射机的辐射角;Ar表示D2D接收机的光探测器PhotoDetector,PD的接收面积;表示D2D设备发射端和设备接收端的直线距离;ψn,n为D2D对接收机的入射角,ψc为DUE接收机的视场角;Tsψn,n和gψn,n分别表示DUE以ψn,n接收光线信号时的光学滤波器和光学聚光器的增益; S103:计算VLC-D2D接收信号的SINRSignaltoInterferenceplusNoiseRatio,信干噪比值; 其中,第n对采用VLC通信的D2D接收信号的SINR可以表示为: 上式中,Popt是DUE发射机的平均发射光功率值,与LEDLightingEmittingDiode,发光二极管的直流偏置呈正比;η表示光电转换系数;表示第n个VLC-D2D发射机与对应接收机的PD之间的信道增益,表示第i对VLC-D2D发射机与对应接收机的PD之间的信道增益;为第n对VLC-D2D通信的子载波带宽,本申请的VLC频段采用固定载波带宽分配,则为常数;NV表示DUE接收光信号的高斯白噪声功率谱密度; S104:计算VLC-D2D接收机接收数据信号的可达速率值; 其中,第n对VLC-D2D接收数据信号的可达速率可以表示为: S105:根据路径损耗模型,计算RF-D2D的信道增益值; 其中,第n对复用RF频段的D2D通信的信道增益可以表示为: 上式中,K表示路径损耗常数;βn,n表示由多径效应带来的快衰弱增益,服从指数分布;λn,n表示由阴影衰弱带来的慢衰弱增益,服从对数正态分布;dn,n表示第n对D2D设备的发射机与接收机之间的距离;α是路径损耗因子; S106:计算RF-D2D接收信号的SINR值; 其中,第n对RF-D2D的SINR值的计算公式为: 上式中,αn,m是二元变量,当RF-D2Dn复用蜂窝用户m的RF频谱时,αn,m=1,否则,αn,m=0;同样地,当RF-D2Di复用蜂窝用户m的RF频谱时,αi,m=1,否则,αi,m=0;分别是蜂窝用户m和D2Dn的发射功率;和分别表示第n对和第i对D2D的发射功率;为蜂窝用户m与D2D的发端DUE的信道增益值,可以由瑞利衰落模型计算得到;和分别表示第n对和D2D、DUEi和DUEn构成的D2D复用RF频率通信的信道增益值;为第n对RF-D2D通信的子载波带宽;NR表示DUE接收RF信号的高斯白噪声功率谱密度; S107:根据香农公式,计算复用RF载波通信的D2D的可达速率值; 其中,复用RF载波通信的第n对D2D的可达速率值计算公式为: 上式中,Bn,m为复用RF信道m的第n对RF-D2D通信的子载波带宽; S2:计算D2D设备在通信的空闲时间所收集的能量,根据VLC-D2D的等效SINR和RF-D2D的SINR值,构造D2D复用CUE频谱的频谱可复用关联矩阵; S3:将D2D节点的剩余能量和系统能效作为D2D复用CUE频谱的奖励函数值,建立VLC-D2D和RF-D2D频谱分配的马尔可夫决策模型,构建智能体从频谱可复用关联矩阵中选择复用频谱的状态空间、动作策略和奖励函数,建立D2D复用CUE频谱的累积折扣奖励的期望值最大化的优化目标函数; 所述的S3的具体步骤如下: S301:将室内VLC-RF的每个D2D抽象为一个智能体,将VLC-RF系统的频谱块资源状态的标志为ct=[st,v,Ft,Dt,It],其中,C表示各资源块各时隙状态集合;st表示t时隙D2D可用的CUE频谱块索引号,其值通过检索S208步骤得到的频谱可复用关联矩阵CB得到;v表示该频谱块是否VLC的频谱,若st为VLC频谱,v=1,否则,v=0;Ft表示st频谱块是否被CUE上行通信占用;Dt表示st频谱块是否被其他D2D占用;It表示st频谱块分配给当前D2D是否对CUE形成干扰;D2D的智能体在VLC-RF系统中距离各个CUE的距离向量信息为dt=[d1,...,dM];则智能体在t时隙在VLC-RF系统中的状态表示为:Et=[ct,dt-1],其中,dt-1表示D2D在上一时隙时距离各CUE的距离向量信息; S302:将D2D复用VLC-RF的CUE的动作空间表示为:at=[it,kt],it为一个二元变量,it=1表示D2D在t时隙需要传输信号;kt表示D2D在t时隙使用CUE频谱块的索引号息,其中,kt∈{0,1,...,M},kt=0表示D2D使用VLC的频谱通信; S303:计算D2D复用CUE频谱的奖励函数值; 其中,D2Dn复用CUEm频谱块进行通信的奖励函数值的计算公式为: 上式中,Ren表示D2Dn复用CUE频谱获得的奖励值,Rn表示D2Dn复用VLC或RF频谱获得的可达速率值,β表示设备的剩余能量与接入VLC-RF获得可达速率的权重系数;rneg表示智能体复用CUE频谱块引入的干扰导致CUE的可达速率降低或剩余能量减少的惩罚值,在本申请中,令rneg=-1;表示CUE的可达速率值,表示CUE的通信速率阈值;表示D2D设备通信的能量阈值;Ptotal为VLC-RF系统的D2D设备通信的总发射功率值,由系统接入VLCAP的通信设备发射功率、接入RFAP的CUE设备发射功率和D2D发射功率综合决定;表示所有接入VLC-D2D和RF-D2D的平均剩余能量值; S304:将D2D复用VLC或RF频谱的决策建模为马尔可夫决策过程MarkovDecisionProcess,MDP,D2D的MDP元组表示为:Et,at,r,p,γ,其中,r为奖励函数值Ren集合,n∈N;p表示D2D智能体从状态Et执行动作at转移状态至Et+1的概率集合,其元素pn表示智能体n的转移概率,表示为:表示智能体n在t时隙的资源状态,表示智能体n在t+1时隙的资源状态,示智能体n在t时隙采取的动作;γ表示奖励的折扣因子集合,其元素值γ∈[0,1],若γ→0,代表智能体关心当前时刻的即时奖励,随着γ增大,智能体将更加关心未来奖励值; S306:计算智能体在选择动作后的累积折扣奖励值和累积折扣奖励的期望值; 其中,智能体n在该t时隙的累积折扣奖励的计算公式为: 上式中,T表示观测时隙周期值;为智能体n在t+j时隙的瞬时奖励值,且 其中,智能体n的累积折扣奖励的期望值的计算公式为: 上式中,Jn是智能体的智能体n的累积折扣奖励的期望值,为数学期望操作; S4:使用Actor-Critic行动者-评论家深度强化学习DeepReinforcementLearning,DRL算法优化D2D多智能体的频谱选择,提高D2D多智能体在VLC-RF网络中获得的累积折扣奖励的期望值。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人重庆邮电大学,其通讯地址为:400065 重庆市南岸区崇文路2号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励