东南大学董璐获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉东南大学申请的专利基于内在好奇心机制的多无人机通信系统优化控制方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN118647032B 。
龙图腾网通过国家知识产权局官网在2025-06-10发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202410632869.1,技术领域涉及:H04L41/16;该发明授权基于内在好奇心机制的多无人机通信系统优化控制方法是由董璐;丁品乐;徐安迪;叶宇剑;袁心设计研发完成,并于2024-05-21向国家知识产权局提交的专利申请。
本基于内在好奇心机制的多无人机通信系统优化控制方法在说明书摘要公布了:本发明公开了一种基于内在好奇心机制的多无人机通信系统优化控制方法。目标是学习一种最优的多无人机集中控制策略,使无人机能够通过好奇心驱动的探索找到城市环境中的照明区域,并收集能量,持续稳定地为用户提供通信服务。首先,提出了一种基于强化学习RL的多无人机集中控制策略,以最大化累积通信服务分数。在提出的框架中,由内在好奇心模块ICM产生的好奇心奖励可以作为一种内部激励信号,允许无人机在没有任何先验知识的情况下探索环境。其次,提出了一种两阶段探索协议,便于实际实现。本发明的方法可以在开发密集型阶段获得更高的累计通信服务分数,获得更为准确的服务路径,并能很好地处理勘探‑开采的权衡。
本发明授权基于内在好奇心机制的多无人机通信系统优化控制方法在权利要求书中公布了:1.基于内在好奇心机制的多无人机通信系统优化控制方法,其特征在于:包括以下步骤:S1:设计多无人机对多用户通信系统;S2:计算多无人机对多用户通信系统中的性能指标,包括无人机到地面用户的路损、无人机对用户的信噪比、无人机的能耗、无人机水平飞行能耗、太阳辐射强度与收获能量关系;S3:基于上述性能指标,构建涉及无人机轨迹优化、通信资源分配的约束优化问题;S4:基于强化学习框架,将优化问题转化为马尔可夫决策过程,并设计强化学习三要素;S5:使用DDPG-ICM算法求解最优策略;所述步骤S4中强化学习三要素包括状态空间St,动作空间At,奖励函数r;具体如下:状态空间包含每架无人机的位置和电池剩余电量;在时间步长t≤NT内,只考虑二维坐标在时间步长为t时,无人机的电池剩余电量表示为无人机的电池电量对它们的行动有直接影响;总的来说,所提出的探索方法的状态空间基数为3NU,表示如下: 动作空间包含所有无人机的移动距离和移动方向;在时间步长t上形成动作At,以体现无人机的集体运动;移动距离和移动方向构成了无人机k在时间步长t中的动作在每个时间步长t中,一架无人机可以在任何一个方向上移动最大距离dmax悬停;所提出的探索方法的状态空间基数为2NU,表示如下 奖励函数分为两个部分,即外部奖励和内部奖励;在时间步长为t内的外部奖励用表示,它是一个函数,表示时间步长t内的瞬时通信服务得分Rt,具体表示如下: 在上式中,瞬时通信服务评分被所除,这是因为,如果的绝对值保持在1以内,可能会出现更好的收敛性;此外,当β1时,不同值之间的奖励差异被放大,这可以促使无人机在能量即将耗尽时采取主动措施;然而,β不能过大,因为在初始模拟中,β≥3会导致最终收敛值较低;此外,在NT时间步长内,通过最大化累计通信服务得分来最终实现累计奖励的最大化;对于每一架跨越边界、耗尽能量或与障碍物碰撞的无人机,给予负奖励作为惩罚是一种替代奖励函数设计;上式中的F为惩罚旗,惩罚旗的大小随越过边界、耗尽能量或与障碍物碰撞的无人机数量而变化;如果无人机在训练过程中离开目标区域,则取消当前的运动;在当前状态St下执行当前动作At将导致负奖励;除了由无人机和环境交互得到的外部奖励以外,内在好奇心模块ICM还能为智能体提供特定的内部奖励;在时间步长为t内的内部奖励用表示;ICM由两个子系统组成:一个内在奖励生成器,产生由好奇心驱动的内部激励信号;一个策略,产生一系列优化奖励信号的行动;在探索密集型阶段训练策略子系统的目标是在时间步t中使两个奖励的总价值rt最大化;ICM中有两个模型,即前向模型和逆模型;前向模型由一组全连接层组成,这些层的输入是将st与at连接得到的状态向,它以at和st作为输入来预测时间步长t+1的状态;函数g被称为前向模型,具体如下: 其中,状态st+1的预测估计值记为优化神经网络的参数定义为θF,其目的是使下述损失函数最小化: 逆模型使用一系列卷积层来映射状态向量,它连接了st和st+1;每个卷积层之后都是ELU非线性;为了预测潜在的行动过程,向量被输入到一个全连接层中,然后从这个层中退出;深度神经网络训练相当于学习一个函数f,定义为: 其中,动作at的预测估计值记为将优化神经网络的参数定义为θI,其优化方程为: 其中损失函数LI用于测量实际动作at与预测动作之间的差异;元组st,st+1是使用当前策略πs与环境交互得到的;函数f被称为逆模型;充分利用前向模型产生的预测误差作为训练智能体策略的内在好奇心奖励,内部奖励的计算公式如下: 所述步骤S5中,使用DDPG-ICM算法在探索密集型阶段训练网络;演员网络和评论家网络有各自的目标网络,结构相同,分别记为μ'和Q';演员网络的任务是通过细化确定性策略来提高智能体的性能,而评论家网络的目标是估计从演员网络接收到的策略的动作值函数;因此,状态St或St+1是演员网络或目标演员网络的输入,动作At或At+1是其输出;同时,评论家网络或目标评论家网络的输出是基于St或St+1和At或At+1的动作值函数近似QSt,At|θQ或Q'St+1,At+1|θQ′;将经验存储在容量为M的经验回放缓冲池ε中;为了训练网络,将从该缓冲池中随机抽取大小为G<<M的小批量样品;在探索密集型阶段,好奇心值较高的动作会被优先选择;开发密集型阶段被设计为在实际飞行中实施;此外,开发密集型阶段和勘探密集型阶段具有相同的动作、状态和网络结构;然而,从训练好的开发密集型网络开始,这些网络被训练以确保一致的初始探索策略,而不是随机初始化网络权重;同时,内在的好奇心奖励从奖励功能中被移除;其余步骤与勘探密集型阶段相同;首先,随机初始化演员网络μ和评论家网络Q;初始化它们的目标网络μ'和Q';此外,还初始化了经验重放缓冲区ε;演员网络观察环境状态St,然后确定动作At;在智能体执行此操作之前,它在St处做出初步决定;无人机只有在离开目标区域、能量耗尽或与障碍物相撞时才会停止运动;否则,它们将执行动作At;之后,状态进入St+1,智能体获得rt作为奖励;有一个阈值NThre用于确定训练过程的阶段;当训练回合小于等于阈值NThre时,训练处于勘探密集型阶段,此时,时间步长t内的奖励值当训练回合大于阈值NThre时,训练处于开发密集型阶段,时间步长t内的奖励值最后,对网络进行训练以提高系统的性能;一旦满足训练条件,从经验回放缓冲区ε中随机抽取一小批样本;最后,分别更新了演员网络、评论家网络和它们对应的目标网络。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人东南大学,其通讯地址为:211102 江苏省南京市江宁区东南大学路2号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。