Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 南京信息工程大学刘聪获国家专利权

南京信息工程大学刘聪获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉南京信息工程大学申请的专利一种基于深度强化学习的卫星网络资源管理方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119031394B

龙图腾网通过国家知识产权局官网在2025-07-11发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411521242.5,技术领域涉及:H04W24/02;该发明授权一种基于深度强化学习的卫星网络资源管理方法是由刘聪;施建锋;陈忻阳;李宝龙;潘成胜设计研发完成,并于2024-10-29向国家知识产权局提交的专利申请。

一种基于深度强化学习的卫星网络资源管理方法在说明书摘要公布了:本发明提供了一种基于深度强化学习的卫星网络资源管理方法,包括:步骤1,构建LEO卫星移动性模型;步骤2,构建具有星间协作ISC增强的SIoT网络模型;步骤3,分别计算本地计算、边缘计算和云计算三种模型下的端到端时延和系统能耗;步骤4,建立基于深度强化学习的任务卸载与资源分配算法和任务卸载决策,实现终端、边缘和云计算节点之间的负载均衡。本发明针对动态任务到达场景,提出了一种模型辅助的自适应深度强化学习算法,能够实现任务卸载决策、通信资源和计算资源的联合配置。

本发明授权一种基于深度强化学习的卫星网络资源管理方法在权利要求书中公布了:1.一种基于深度强化学习的卫星网络资源管理方法,其特征在于,包括以下步骤: 步骤1,构建LEO卫星移动性模型; 步骤2,构建具有星间协作ISC增强的SIoT网络模型; 步骤3,分别计算本地计算、边缘计算和云计算三种模型下的端到端时延和系统能耗; 步骤4,建立基于深度强化学习的任务卸载与资源分配算法和任务卸载决策,实现终端、边缘和云计算节点之间的负载均衡; 步骤1中,所述LEO卫星移动性模型包括: LEO卫星s在离地面高度H的轨道上以速度Vs匀速飞行,αm,s[n]为LEO卫星s在时隙n时与水平正方向的夹角,γm,s[n]为LEO卫星s在时隙n时到卫星用户m的剩余覆盖弧长对应的几何夹角,R为地球半径,当0°αm,s[n]180°时,LEO卫星s能够与设备m建立通信链路; 据几何关系,当0°αm,s[n]90°时,γm,s[n]表示为: 当90°αm,s[n]180°时,γm,s[n]表示为: 卫星s在时隙n距离卫星用户m的线性距离Dm,s[n]表示为: 步骤2包括:根据SIoT网络模型建立一个用于分析的系统,所述系统中包含M个IoT设备,S个LEO卫星和1个云计算中心,M=D+O,其中O个IoT设备在远郊,D个IoT设备在灾区,M个IoT设备的集合在灾区的IoT设备的集合在远郊的IoT设备的集合LEO卫星表示为集合{S1,S2}为接入卫星,{Sc1,Sc2,Sc3}为协作卫星,时隙的集合N表示时隙总数; 步骤2中,设一个时隙的长度为τ,一个周期分为N个时隙,设定在一个时隙内信道状态不变;将卫星用户m在时隙n的任务建模为 表示任务包含比特数据,需要在时间内完成,工作负载为处理任务需要的CPU周期数用表示任务的卸载决策; 步骤2中,建立一个卫星信道模型,包括通信损耗、降雨衰减和云衰减,其中通信损耗φfs表示为: 其中dF为通信距离,λ为波长,fC为载波频率,c为光速; 降雨衰减φrain为: 其中,为每年超过0.01%的降雨率,deff为有效路径,a和b为与雨滴大小分布、温度和频率相关的回归系数; 云的衰减φcloud为: 其中L为云中液态水总柱状含量,kc为云层的特定衰减系数,ε'和ε”分别为水介电常数的实部和虚部; 卫星通信过程中的总信道衰落h表示为: h=φfsφrainφcloud7 步骤3包括: 步骤3-1,构建本地计算模型: 设卫星用户m在时隙n的CPU工作频率为卫星用户m在时隙n的任务处理时延表示为: 卫星用户m在时隙n的任务处理能耗表示为: 其中εx表示电气系数; 卫星用户m在时隙n的开销表示为: 其中,μl为本地计算模式下的时延敏感系数; 步骤3-2,构建边缘计算模型: 设卫星运动的中间状态的时刻为tmid,当ttmid时,灾区与云计算中心在卫星s1的服务范围内,远郊在卫星s2的服务范围内,t表示卫星运动的状态的时刻;当ttmid时,云计算中心在卫星s1的服务范围内,灾区与远郊在卫星s2的服务范围内; 设卫星s1,s2在时隙n的CPU工作频率分别为和传输功率分别为和卫星用户m在时隙n的时延表示为: 其中,ISL表示任务传输涉及星间合作,需要星间链路;NoISL表示任务传输链路不涉及星间合作,不需要星间链路;ttmid表示卫星在一个周期的前半段,ttmid表示卫星在一个周期的后半段;表示卫星用户m将任务卸载到卫星s1的信号传输速率,表示卫星用户m将任务卸载到卫星s2的信号传输速率,cs表示接入卫星与协作卫星之间的信号传输速率,表示卫星用户m与卫星s1之间的距离,表示卫星用户m与卫星s2之间的距离,DS表示接入卫星与协作卫星之间的距离; 卫星用户m在时隙n的能耗表示为: 其中,表示卫星用户m在时隙n的传输功率; 边缘计算模式下卫星用户m在时隙n的开销为: 其中,μe为边缘计算模式下的时延敏感系数; 步骤3-3,构建云计算模型: 设云计算中心单核CPU工作频率为fc,核心数为Nct; 卫星用户m在时隙n的时延表示为: 其中表示卫星用户m将任务卸载到卫星s1的信号传输速率,表示卫星用户m将任务卸载到卫星s2的信号传输速率,表示卫星s1将任务卸载到卫星s2的信号传输速率,表示卫星s1将任务卸载到云计算中心的信号传输速率,表示卫星s1与卫星s2之间的距离,表示卫星s1与云计算中心之间的距离; 卫星用户m在时隙n的能耗表示为: 云计算模式下卫星用户m在时隙n的总开销为: 其中,μc为云计算模式下的时延敏感系数; 步骤3-4,问题优化:卫星用户m在时隙n不同处理方式下生成的任务的端到端时延和能耗分别为: 其中表示任务处理方式,当等于0时,代表任务在本地处理,当等于1时,代表任务卸载到接入卫星中处理,当等于2,3,4,5时,代表任务卸载到协作卫星中处理,当等于6时,代表任务卸载到云计算中心处理; 目标优化问题P1为: 其中,表示IoT设备m在时隙n生成任务的最大容忍时延,表示IoT设备m的最大能耗,表示卫星s的最大能耗,表示IoT设备m的最大CPU工作频率,表示IoT设备m的最大传输功率,表示卫星s的最大CPU工作频率,表示卫星s的最大传输功率;ε表示一个非零的正数,用来衡量函数在下一时刻与当前时刻函数值的接近程度,εf为约束C9中ε的取值,εp为约束C10中ε的取值;μ表示时延敏感系数; 步骤4中,所述基于深度强化学习的任务卸载与资源分配算法包括:通过模型辅助对CPU工作频率和传输功率进行优化: 当任务采用本地计算时,优化问题转化为: 本地计算模式下的开销函数F1表示为: 极值点为约束C1、C2简化为F1可行解范围的上界f1和下界f2为: 本地计算的最优开销表示为: 其中F1f1表示开销函数取上界f1时的值,表示开销函数在极值点的值,F1f2表示开销函数取下界f2时的值; 当任务采用边缘计算时,优化问题转化为: 当任务采用云计算时,优化问题转换为: 步骤4中,所述任务卸载决策使用深度Q网络DQN和双重深度Q网络DDQN确定,所述深度Q网络DQN包括在线网络Q和目标网络Q_hat; 采用自适应深度强化学习DRL算法训练远郊与灾区的深度Q网络DQN,进而获取任务卸载决策,所述自适应深度强化学习DRL算法包括如下步骤: 步骤a1,初始化与准备: 步骤a1-1,初始化在线网络Q和目标网络Q_hat的参数; 步骤a1-2,设置训练参数,包括学习率lr、探索率epsilon、折扣因子γ、目标网络更新频率target_update_freq、探索率衰减epsilon_decay、经验回放池D的大小、最小批量大小batch_size和算法运行回合数num_episode; 步骤a2,执行如下训练过程: 步骤a2-1,对于每一回合episode从1到num_episode,进行以下操作: 步骤a2-1-1,初始化状态state; 步骤a2-1-2,对于每一个步骤step,执行以下操作: 步骤a2-1-1-1,以概率epsilon随机选择一个动作a; 步骤a2-1-1-2,否则,选择使得Qstate,a最大的动作a;Qstate,a表示在状态state执行动作a的预期回报; 步骤a2-1-1-3,执行动作a,观察得到的奖励r和新状态state'; 步骤a2-1-1-4,将转移元组state,a,r,state'存储到经验回放池D中; 步骤a2-1-1-5,更新状态state为state'; 步骤a2-2,如果经验回放池D的大小大于等于batch_size,进行以下操作: 步骤a2-2-1,从经验回放池D中随机抽取一批转移元组state,a,r,state'; 步骤a2-2-2,对于每个抽取的转移元组,计算目标值y:如果state’是终止状态,则y=r,否则,对于深度Q网络DQN,y=r+γmax_a'Q_hatstate',a';对于双重深度Q网络DDQN,y=r+γQ_hatstate',argmax_a'Qstate',a';其中max_a'表示在所有可能动作a'中的最大值;Q_hatstate',a'表示在状态state'下执行动作a'的预期回报;argmax_a'表示使Q值最大的动作a';Qstate',a'表示在状态state’下执行动作a'的预期回报; 步骤a2-2-3,使用计算得到的目标值y和给定状态下预测的某个动作的预期回报计算损失函数; 步骤a2-2-4,使用梯度下降法更新在线网络Q的参数; 步骤a2-3,每隔target_update_freq步,将在线网络Q的参数复制给目标网络Q_hat; 步骤a2-4,在所有回合结束后,返回训练好的在线网络Q; 步骤4中,所述深度Q网络DQN包括如下元素: 状态空间:在每个时隙中,系统观察当前状态,获取环境信息;分别用每个用户的任务状态来表示状态state,状态state包括任务大小dm、工作负载cm和最大容忍时延在时隙n时刻的状态空间定义为其中表示设备M在时隙n的任务大小,表示设备M在时隙n的任务负载,表示设备M在时隙n生成任务的最大容忍时延; 动作空间:在线网络得到状态空间gn后,将产生相应的离散卸载决策an, 奖励函数:在状态state下采取行动a后,环境进入下一个状态并返回奖励r,奖励值r定义为系统开销的倒数。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人南京信息工程大学,其通讯地址为:210044 江苏省南京市江北新区宁六路219号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。