北京中电飞华通信有限公司孙乔获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉北京中电飞华通信有限公司申请的专利基于深度确定性策略梯度算法的资源分配方法及相关设备获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119342527B 。
龙图腾网通过国家知识产权局官网在2025-10-10发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411263259.5,技术领域涉及:H04W28/06;该发明授权基于深度确定性策略梯度算法的资源分配方法及相关设备是由孙乔;纪鹏;高建新设计研发完成,并于2024-09-10向国家知识产权局提交的专利申请。
本基于深度确定性策略梯度算法的资源分配方法及相关设备在说明书摘要公布了:本申请提供一种基于深度确定性策略梯度算法的资源分配方法及相关设备,该方法包括:获取状态参数;所述状态参数用于表征所述卫星站的信道环境状态;将所述状态参数输入深度强化学习模型,生成至少一个动作决策;所述深度强化学习模型基于深度确定性策略梯度算法以及沙猫群优化算法训练得到;所述动作决策用于指示资源分配和功率控制策略;计算所述至少一个动作决策的期望值,确定所述期望值最大的所述动作决策为目标动作决策;基于所述目标动作决策,执行所述资源分配和功率控制策略。本申请通过使用深度强化学习模型解决资源分配和功率控制的联合优化问题,从而实现提升资源分配效率,优化网络性能。
本发明授权基于深度确定性策略梯度算法的资源分配方法及相关设备在权利要求书中公布了:1.一种基于深度确定性策略梯度算法的资源分配方法,其特征在于,应用于卫星站,所述方法包括: 获取状态参数;所述状态参数用于表征所述卫星站的信道环境状态; 将所述状态参数输入深度强化学习模型,生成至少一个动作决策;所述深度强化学习模型基于深度确定性策略梯度算法以及沙猫群优化算法训练得到;所述动作决策用于指示资源分配和功率控制策略; 计算所述至少一个动作决策的期望值,确定所述期望值最大的所述动作决策为目标动作决策; 基于所述目标动作决策,执行所述资源分配和功率控制策略; 获取用户数据; 基于资源扩展多址传输机制,将所述用户数据分为公共流数据和私有流数据,发送给地面站; 确定公共流速率和私有流速率; 基于所述公共流速率和所述私有流速率,确定奖励值;所述奖励值为所述公共流速率和所述私有流速率之和; 将所述状态参数、所述目标动作决策、所述奖励值、以及下一状态参数作为经验样本存储到经验样本数据库中; 响应于所述经验样本的数量达到第三预设阈值,基于优先级机制,确定所述经验样本的优先级; 基于所述经验样本的优先级,确定经验样本组; 基于所述经验样本组,训练所述深度强化学习模型; 响应于所述深度强化学习模型达到第二预设条件,结束训练;所述第二预设条件包括以下至少一项:训练次数达到第四预设阈值以及所述深度强化学习模型输出的所述动作决策的期望值大于或等于第五预设阈值; 其中,所述优先级机制为基于时序差分误差与Q值的优先级机制; 所述基于时序差分误差与Q值的优先级机制满足如下表达式: 其中,Pi为基于所述优先级机制的第i个所述经验样本的优先级,μTD为全部经验样本的时序差分误差的平均值,σTD为全部经验样本的时序差分误差的标准差,PTDi为基于时序差分误差计算得到的第i个所述经验样本的优先级,PQi为基于Q值计算得到的第i个所述经验样本的优先级,ε为一个较小的正值,以确保Pi0; 所述基于时序差分误差计算得到的第i个所述经验样本的优先级满足如下表达式: 所述基于Q值计算得到的第i个所述经验样本的优先级满足如下表达式: 其中,softsign函数和ISRU函数用于将优先级归一化,δi为第i个所述经验样本的时序差分误差,si为第i个所述经验样本中的状态参数,ai为所述状态参数对应的所述目标动作决策。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京中电飞华通信有限公司,其通讯地址为:100089 北京市丰台区樊羊路东旭国际中心A座南楼;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。
请提出您的宝贵建议,有机会获取IP积分或其他奖励