恭喜南京大学李文峰获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜南京大学申请的专利一种基于深度强化学习的卫星自适应编码调制方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116192227B 。
龙图腾网通过国家知识产权局官网在2025-06-10发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310011797.4,技术领域涉及:H04B7/185;该发明授权一种基于深度强化学习的卫星自适应编码调制方法是由李文峰;周鑫;赵康僆;方元设计研发完成,并于2023-01-05向国家知识产权局提交的专利申请。
本一种基于深度强化学习的卫星自适应编码调制方法在说明书摘要公布了:一种基于深度强化学习的卫星自适应调制方法,1进行初始化操作;初始化状态空间、动作空间、贪婪参数;2地面的信号接收端接收来自卫星下行链路的信号,并提取当前帧中的导频信息用于信噪比估计,接收端计算出信噪比估计结果后,通过地面反馈链路传递给地面发送端;3发送端依据所选择的动作,将其转译成对应的调制方式和编码速率;4判断当前的迭代次数是否为预设网络更新步数的整数倍数,若是,则进入到步骤5进行网络更新;若否,则更新信噪比状态,回到2进入下一轮迭代;5引入对偶网络的概念,通过优化神经网络的结构的方式,提升学习效果,加速结果的收敛。6更新信噪比状态,贪婪参数递增,并回到2进行下一轮迭代。
本发明授权一种基于深度强化学习的卫星自适应编码调制方法在权利要求书中公布了:1.一种基于深度强化学习的卫星自适应调制方法,其特征在于,包括以下步骤:步骤1,进行初始化操作;初始化状态空间、动作空间、贪婪参数;在星地通信场景下,强化学习三要素状态空间、动作空间、奖励函数中的状态空间、即为在当前信道下接收端所接收的所有信噪比值的集合,以规避传统查找表方法的粗略划分区间进行决策的弊端;动作空间即为卫星通信系统下所有调制编码方式的集合,不同的调制编码方式定义为不同的动作;奖励函数用来衡量在不同状态下不同的动作的价值,在当前系统下,以频谱效率为标准,进行奖励函数的设定;探索概率即为进行随机探索的概率,根据这个设定的概率在一部分情况下进行随机探索,其余时间采取经验上的最优动作的数值概率,以降低训练样本的相关性;步骤2,地面的信号接收端接收来自卫星下行链路的信号,并提取当前帧中的导频信息用于信噪比估计,接收端计算出信噪比估计结果后,通过地面反馈链路传递给地面发送端;通过神经网络方法来规避传统强化学习状态空间过大导致Q表中Q值的收敛困难的问题,地面发送端基于地面接收端信号接收并计算出的信噪比状态输入到评估网络中使用贪婪算法以相应概率判断是否进行探索,若是,则从动作空间中随机选择一个动作;若否,则从评估网络的输出中选择能得到最大Q值的动作;步骤3,发送端依据所选择的动作,将其转译成对应的调制方式和编码速率,并按照此调制编码方式进行发送信号,经过卫星上行信道后,将指定的调制编码方式告知卫星,以便在下一次传输中使用;信号到达接收端后,计算得到相应的奖励值,将当前的状态、动作、奖励要素作为一组样本存入经验池;步骤4,判断当前的迭代次数是否为预设网络更新步数的整数倍数,若是,则进入到步骤5进行网络更新;若否,则更新信噪比状态,回到步骤2进入下一轮迭代;步骤5,引入对偶网络的概念,即评估网络和目标网络的输出层均被拆分为价值层和优势层,其中价值层的输入仅为信噪比状态,只负责关注当前的信道质量;通过优化神经网络的结构的方式,提升学习效果,加速结果的收敛;优势层的输入为信噪比状态和调制编码方式,负责关注调制编码方式在当前信噪比状态下的价值;最后将两个子网络的输出项聚合成最终的Q值输出;从经验池中提取若干组样本作为训练集的输入;进一步判断当前迭代次数是否是预设目标网络更新步数的整数倍数,若否,直接训练更新评估网络,无需更新目标网络;若是,则将评估网络的参数更新至目标网络,并将训练集输入和公式计算出的结果作为新的评估网络,到本步骤为止为一个强化学习回合;步骤6,更新信噪比状态,贪婪参数递增,并回到步骤2进行下一轮迭代。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人南京大学,其通讯地址为:210093 江苏省南京市鼓楼区汉口路22号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。