Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 沈阳航空航天大学吴杰宏获国家专利权

沈阳航空航天大学吴杰宏获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉沈阳航空航天大学申请的专利一种基于多智能体深度强化学习的多无人机编队集群控制方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115755949B

龙图腾网通过国家知识产权局官网在2025-08-08发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210651239.X,技术领域涉及:G05D1/695;该发明授权一种基于多智能体深度强化学习的多无人机编队集群控制方法是由吴杰宏;于元哲;马坚;范纯龙;高利军;周振辉;杨华;毕静;邱虹坤设计研发完成,并于2022-06-09向国家知识产权局提交的专利申请。

一种基于多智能体深度强化学习的多无人机编队集群控制方法在说明书摘要公布了:本发明涉及多无人机的智能协同控制领域,提供了一种基于多智能体深度强化学习的多无人机编队集群自主聚集方法,主要包括以下步骤:1对单无人机运动过程进行建模;2将异构多无人机聚集过程建模为马尔科夫博弈过程;3基于MADDPG算法对聚集过程进行训练;4引入注意力机制到多智能体深度强化学习中,优化无人机的学习过程;5利用学习到的策略对多无人机进行控制;本发明提出了一种基于多智能体深度强化学习的多无人机编队集群控制方法,通过对多无人机的聚集问题进行马尔科夫博弈过程建模,使得无人机自主训练得到对应控制模型。并引入注意力机制加快训练速度和提升训练效果。最终,经过对坐标进行变换完成多个不同编队的聚集。

本发明授权一种基于多智能体深度强化学习的多无人机编队集群控制方法在权利要求书中公布了:1.一种基于多智能体深度强化学习的多无人机编队集群控制方法,其特征在于,包括如下步骤: 步骤一:对单无人机的运动过程进行建模; 步骤二:将多无人机之间的聚集问题建模为马尔科夫博弈过程; 步骤三:使用多智能体深度强化学习方法进行训练,使用actor网络学习聚集策略,critic网络评价学习效果引导无人机聚集; 步骤四:在训练过程中引入注意力机制到critic网络中加快训练速度和提升训练效果; 步骤五:得到多个无人机的相互聚集模型,完成对应子编队的聚集; 步骤六:基于坐标转换将多个不同的编队统一到一起形成一个无人机集群; 步骤一中对单无人机运动过程进行建模具体为: 首先定义一个向量集合p=[p1,p2,…,pn]T,其为集群中的所有无人机在笛卡尔坐标系下的位置,由向量pi=xi,yi,ziT可确定无人机i在空间中的位置,对单架无人机的运动过程进行建模,有如下公式: 其中vi为无人机i的飞行速度,θi和φi分别为无人机i的俯仰角和航向角;在无人机的飞行过程中,通过施加控制输入引导无人机的飞行,给定如下控制输入公式: 其中pi和Vi分别为无人机i的位置和速度,为在三个方向上的控制输入量; 步骤二中将多无人机之间的聚集问题建模为马尔科夫博弈过程,无人机对应为智能体,给定对应的状态空间、动作空间和奖励函数设定: 其中所述状态空间:编队中包含领导者无人机和跟随者无人机,此处从领导者与跟随者的角度对状态空间进行分类,对应的有领导者无人机sl和跟随者无人机的状态sf;定义领导者无人机的状态空间为: sl=pl,ptar,vl 跟随者无人机的状态空间为: sf=pf,pl,vl,vf 一般情况下领导者无人机向自己的既定目标位置ptar=xtar,ytar,ztar运动,跟随者无人机通过获取领导者无人机的位置信息,得到自己与其相对位置关系并保持队形;pl=xl,yl,zl为领导者无人机在笛卡尔坐标系中的坐标,pf=xf,yf,zf为跟随者无人机的位置坐标,vl为领导者无人机的速度,vf为跟随者无人机的速度;最终有联合状态空间: s=pl,pf,ptar,vl,vf 动作空间:对无人机的控制主要通过速度和角度的改变实现;此处将动作空间设定为: a=uv,ur,up 其中uv为对无人机速度的控制输入,对速度的控制变化量满足如下条件: 角度的控制量包含ur和up,分别为对航向角和俯仰角度的变化控制,对航向角有: 其中[-rφ,rφ]为航向角的允许转向范围,对俯仰角同样有[-pθ,pθ],控制输入与上式类似; 所述奖励函数为1领导者无人机的奖励: 其中Rtar>0为目标区域半径,当领导者无人机与目标点距离小于该半径时,即视为到达目标点,给予一个正向奖励αl;反之,对其进行惩罚,惩罚程度与目标点的距离成正比,即距离越远惩罚越大; 2跟随者无人机的奖励: 对跟随者的奖励设定类似领导者无人机,当跟随者无人机处于期望位置区域时给予正向奖励αf;反之,给予负奖励进行惩罚; 3无人机之间的避免碰撞的奖励: 4全局奖励: 步骤四中在训练过程中引入注意力机制到critic网络中的改进如下:在评价值函数部分中加入了一个注意力模块;利用新加入的注意力模块来聚合评价函数部分的输入信息x,a1,...,an,其中x=o1,...,on为所有无人机的观察信息的集合,加入注意力机制后的值函数可以表示为: 其中,fi为一个两层的MLP网络,用于估计衡量该无人机的动作状态值函数;gi为一个一层的MLP网络,用来对无人机本身的状态观察值和动作值进行编码;ci为衡量其他无人机对无人机i的影响程度: 其中h是一个非线性的ReLu函数,同时用注意力权重αj表示无人机j对无人机i的影响;由ci得出无人机j所占的权重越大,则其对无人机i的影响也越大,对注意力权重αj进行SoftMax归一化,有: 对应的第i架无人机的评价函数更新为: 其中y为目标网络的值函数: 同时第i架无人机的动作值函数更新为: 步骤五中将多个不同的子编队坐标系转换到同一个集群坐标下完成集群的统一: 两种坐标系之间在对应轴上有关于角度的旋转关系,考虑编队在水平航向角和纵向俯仰角上的角度变化,首先将编队坐标系OfXfYfZf绕地面坐标系的OgZg轴旋转得到一个水平方向的-φ角,可以得到一个过渡旋转矩阵: 其次,绕地面坐标系的OgYg轴旋转得到关于垂直于水平面的纵向方向上的俯仰角度θ,同样可得到一个过渡的旋转矩阵: 由此可得到编队坐标系相对于地面坐标系的旋转矩阵: 步骤六中基于坐标转换将多个不同的编队统一到一起形成一个无人机集群;具体为: 假设某编队在X,Y和Z轴三个方向上分别移动了dx,dy和dz,对其中的任意一架无人机都有pt=p+t=[x+dx,y+dy,z+dz],其中t=[dx,dy,dz],同样可以矩阵的形式表示平移运动的过程,为方便计算,引入一个齐次坐标w,取w=1;对该无人机有pw=[x,y,z,w],因此进行平移后的齐次坐标可表示为: 其中为进行齐次化处理后的平移矩阵,结合可能发生的旋转R,最终可得编队中任意无人机在地面坐标系下发生的坐标变换: 其中p'为无人机在地面坐标系下发生旋转和平移运动后对应的在编队坐标系中的位置;不同的编队向同一个聚集点靠拢,通过上述坐标变换关系统一到同一个集群坐标系下完成集群的聚集。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人沈阳航空航天大学,其通讯地址为:110136 辽宁省沈阳市道义经济开发区道义南大街37号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。