湖南大学张百达获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉湖南大学申请的专利一种基于强化学习改进的多无人机目标追捕方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120780025B 。
龙图腾网通过国家知识产权局官网在2025-11-28发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511137905.8,技术领域涉及:G05D1/695;该发明授权一种基于强化学习改进的多无人机目标追捕方法是由张百达;李明洙;陈睿设计研发完成,并于2025-08-14向国家知识产权局提交的专利申请。
本一种基于强化学习改进的多无人机目标追捕方法在说明书摘要公布了:本发明公开了一种基于强化学习改进的多无人机目标追捕方法,包括以下步骤:S1.对追捕问题进行建模;S2.构建训练网络框架,采用多级课程学习方式完成追捕策略的训练,得到训练好的智能体;S3.将当前追捕无人机的观测空间输入至训练好的策略网络,获取对应的追捕策略,完成目标物的追捕。
本发明授权一种基于强化学习改进的多无人机目标追捕方法在权利要求书中公布了:1.一种基于强化学习改进的多无人机目标追捕方法,其特征在于,包括以下步骤: S1.对追捕问题进行建模;在面向动态障碍环境下多无人机协作追捕目标物的三维场景下,基于追捕无人机的实时状态信息来构建其观测空间; S2.构建训练网络框架,采用多级课程学习方式完成追捕策略的训练,得到训练好的智能体; 根据预设目标物和动态障碍物的初始位置得到追捕无人机的初始位置坐标,预设追捕无人机、目标物和动态障碍物的行动策略,基于追捕无人机的观测空间,引入对抗网络对智能体进行训练;若当前智能体的策略网络所对应的追捕成功率达到该级课程结束预设条件,则进行下一级课程的训练,直至满足预设优化条件得到训练好的智能体; S2的具体内容包括: S21.预设目标物和动态障碍物的初始位置,并将预设的目标物的初始位置作为追捕无人机的初始位置,得到第一级课程的布朗位置集合;进行多次布朗运动,并将每次布朗运动后的位置信息来更新上一次布朗运动对应的布朗位置合集;每次从布朗位置集合随机抽取一个位置,作为追捕无人机的初始坐标,每个追捕无人机从预设的初始坐标出发,进行b步无规则布朗运动,并在每一步无规则布朗运动的过程中随机完成动作空间中的任意一个离散动作,获取当前追捕无人机的状态信息,将其中的位置信息加入上一次布朗运动对应的布朗位置合集进行更新,得到追捕无人机进行该级课程训练的初始位置集合; S22.从初始位置集合中随机抽取一个位置,作为追捕无人机的初始坐标; S23.预设追捕无人机、目标物和动态障碍物的行动策略; S24.引入对抗网络对智能体进行训练;在完成策略网络输出的行动策略后,获取当前智能体所处环境的状态信息,根据奖励函数获取当前行动策略对应的奖励,通过智能体中的价值网络评估当前行动策略的价值,策略网络根据其提供的价值来更新策略,并将追捕无人机对应的观测空间作为对抗网络的输入,得到预测动作,最大化回报的同时增大策略网络与对抗网络的差异来完成策略网络的优化; S25.若当前策略网络所对应的追捕成功率达到该级课程结束预设条件,则将此级课程追捕无人机的初始位置集合作为下一级追捕无人机的布朗位置集合,重新按照S21生成新的初始位置集合,并重新进行S22-S24,直至满足预设优化条件得到训练好的智能体; 预设追捕无人机、目标物和动态障碍物的行动策略: 追捕无人机通过训练好的智能体中的策略网络进行决策:根据目标物和动态障碍物在时刻的位置,获得追捕无人机对应的观测空间并将其作为策略网络的输入,策略网络输出决策动作后无人机执行;当追捕无人机与动态障碍物或其他追捕无人机的距离小于安全阈值时,采用人工势场法辅助决策; 目标物的行动策略:分别计算目标物在采取动作空间A中每一个动作后对应的新位置,并获得每个新位置与当前的追捕无人机之间的距离,选择最远距离所对应的动作来更新目标物的状态信息; 动态障碍物的行动策略:采取匀速运动,沿着轴方向来回移动; S24的具体内容包括: ①初始化网络参数:策略网络用于生成动作,价值网络用于估计状态价值,对抗网络旨在模仿策略网络的行为; ②在环境中,以表示策略网络模型可学习参数,追捕无人机p使用当前策略网络行动进行交互采样,收集不同时间步下的经验数据,包括状态、动作、奖励和下一状态; ③对抗网络,以表示对抗网络模型可学习参数,将KL散度作为损失项,以最小化KL散度为目标进行训练,来不断模仿策略网络; ④在策略网络进行策略更新时,价值网络首先采用广义优势估计方法计算当前策略对应的优势项;策略网络为了避免被对抗网络模仿,计算旧策略网络估计的动作的动作概率和旧对抗网络估计的动作的动作概率的对数差值,即,以分别表示旧模型参数,添加在优势项后获得新的优势项,修改后的优势项记作,策略网络通过最小化损失负值更新策略网络参数; ⑤价值网络更新:计算实际收集的奖励和价值网络输出的估计奖励值之间的差异,以均方误差作为损失项,然后进行参数更新; ⑥重复迭代:不断重复②-⑤过程; S3.将当前追捕无人机的观测空间输入至训练好的策略网络,获取对应的追捕策略,完成目标物的追捕。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人湖南大学,其通讯地址为:410012 湖南省长沙市岳麓区麓山南路1号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励