中山大学王玺钧获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉中山大学申请的专利一种基于约束强化学习的通信感知联合优化方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116367337B 。
龙图腾网通过国家知识产权局官网在2025-10-03发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310209925.6,技术领域涉及:H04W72/542;该发明授权一种基于约束强化学习的通信感知联合优化方法及系统是由王玺钧;马力斐;陈翔设计研发完成,并于2023-03-07向国家知识产权局提交的专利申请。
本一种基于约束强化学习的通信感知联合优化方法及系统在说明书摘要公布了:本发明公开了一种基于约束强化学习的通信感知联合优化方法及系统,该方法包括:将通信感知系统建模为一个约束马尔可夫决策过程,并确定优化目标和约束条件;构建策略网络、值网络和拉格朗日乘子并采集样本数据;基于优化目标和约束条件,通过样本数据对策略网络、值网络和拉格朗日乘子进行更新训练;通信感知系统基于训练后的策略网络、训练后的值网络和训练后的拉格朗日乘子进行信息交互。通过使用本发明,能够在环境模型事先未知的情况下求解通信感知双功能场景下的时间分配问题。本发明作为一种基于约束强化学习的通信感知联合优化方法及系统,可广泛应用于感知通信联合技术领域。
本发明授权一种基于约束强化学习的通信感知联合优化方法及系统在权利要求书中公布了:1.一种基于约束强化学习的通信感知联合优化方法,其特征在于,包括以下步骤: 将通信感知系统建模为一个约束马尔可夫决策过程,并确定优化目标和约束条件; 构建策略网络、值网络和拉格朗日乘子并采集样本数据; 基于优化目标和约束条件,通过样本数据对策略网络、值网络和拉格朗日乘子进行更新训练,得到训练后的策略网络、训练后的值网络和训练后的拉格朗日乘子; 通信感知系统基于训练后的策略网络、训练后的值网络和训练后的拉格朗日乘子进行信息交互; 所述优化目标为通信感知系统中的长期平均感知互信息,所述约束条件为通信感知系统中的长期平均年龄惩罚,其中: 所述优化目标的表达式为,上式中,s1表示初始状态,δmax表示平均年龄惩罚的预设约束值,表示期望算子,πθ表示基于参数化深度神经网络的策略,相应参数为θ,T表示在环境中执行任务的总步数; 所述约束条件的表达式为,上式中,IradUt表示通信接收机接收到的最新数据包的大小,表示预设的斜率上限,δt表示通信接收机的信息年龄; 所述基于优化目标和约束条件,通过样本数据对策略网络、值网络和拉格朗日乘子进行更新训练,得到训练后的策略网络、训练后的值网络和训练后的拉格朗日乘子,具体包括: 通过拉格朗日乘子将样本数据的成本吸收至奖励,计算对应的广义优势估计值; 基于ADAM优化器,根据对应的广义优势估计值,通过随机梯度下降算法更新拉格朗日乘子与值网络参数,通过随机梯度上升算法更新策略网络参数,得到更新后的策略网络、更新后的值网络和更新后的拉格朗日乘子; 循环迭代采集样本数据步骤与样本数据对策略网络、值网络和拉格朗日乘子进行更新训练步骤,直至满足预设迭代次数,输出训练后的策略网络、训练后的值网络和训练后的拉格朗日乘子。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中山大学,其通讯地址为:510275 广东省广州市海珠区新港西路135号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励