安徽大学苏延旭获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉安徽大学申请的专利基于改进TD3算法的无人机自主导航方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN118963407B 。
龙图腾网通过国家知识产权局官网在2025-10-24发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411065005.2,技术领域涉及:G05D1/495;该发明授权基于改进TD3算法的无人机自主导航方法是由苏延旭;朱文雅;王雪娆;孙长银设计研发完成,并于2024-08-05向国家知识产权局提交的专利申请。
本基于改进TD3算法的无人机自主导航方法在说明书摘要公布了:本发明公开一种基于改进TD3算法的无人机自主导航方法,包括:设计改进TD3算法的状态空间、动作空间、奖励函数、策略网络、价值网络、成功经验池及失败经验池;初始化状态和临时经验池,策略网络收集数据添加到临时经验池,临时经验池数据溢出则将溢出数据添加到成功经验池;判断是否达到更新条件,达到更新条件,从成功经验池和失败经验池中按照比例随机采样数据,用采样数据更新价值网络和策略网络;未达到更新条件,判断无人机是否达到终止状态,达到成功的终止状态时,将临时经验池的数据全部放到成功经验池,若是失败的终止状态,将临时经验池的数据全部放到失败经验池。本发明提高了采样数据的质量,从而提升无人机自主导航的效率。
本发明授权基于改进TD3算法的无人机自主导航方法在权利要求书中公布了:1.基于改进TD3算法的无人机自主导航方法,其特征在于,包括: S1、建立基于改进TD3算法的无人机路自主导航模型,将无人机自主导航问题描述为马尔科夫决策过程,设计具有两个策略网络和多个经验池的改进TD3算法:DAMEP-TD3算法;定义DAMEP-TD3算法的状态空间、动作空间、奖励、策略网络、价值网络、成功经验池及失败经验池; 所述DAMEP-TD3算法的状态空间存放状态s,状态s具体包括:无人机自身信息、目标点信息以及障碍物信息; 无人机自身信息和目标点信息通过GPS和陀螺仪给出,两者的融合状态信息记为sp,公式表达为: sp=[xg-x,yg-y,zg-z,vx,vy,vz,β,dis]; 其中,x,y,z为无人机的当前位置,xg,yg,zg为目标点位置,dis表示无人机与目标点的直线距离,β为无人机和目标点的连线与无人机第一视角方向的夹角,vx,vy,vz表示无人机在3个维度的速度,xg-x,yg-y,zg-z表示目标点对于无人机的相对位置; 障碍物信息通过无人机水平面上和垂直面上的激光距离传感器检测给出,障碍物信息记为se,其公式表达为: se=[ρi,li],i=1...14; 其中,ρi为one-hot编码,检测到障碍物其值为1,未检测到障碍物为0;li为激光射线长度,如果传感器在指定方位内没有检测到障碍物,则射线的长度为可检测的最大距离,否则长度为无人机与障碍物之间的距离;传感器扫描的角度范围用π表示,每两束激光间的角度为l1到l7表示传感器在水平面的射线长度,l8到l14是垂直面的射线长度,其中l4和l11是同一束激光; 所述DAMEP-TD3算法的动作空间存放动作a,动作a由无人机各方向上受到的力表示,公式表达为: a=[aForward,aRight,aUp,aRotation]; 其中,aForward、aRight、aUp分别表示无人机在前后、左右、上下方向上收到的力,体现无人机前后、左右、上下的移动;aRotation表示受到的转向力,体现无人机偏航角的变化; 所述DAMEP-TD3算法还包括2个策略网络2个价值网络以及对应的目标网络 S2、初始化无人机的状态,定义临时经验池; S3、根据策略网络收集无人机与环境互动过程中获得的数据,并将数据添加到临时经验池中,临时经验池数据溢出则将溢出的数据添加到成功经验池,再进行更新条件的判断;临时经验池数据不溢出,则直接进行更新条件的判断; S4、判断是否达到更新条件: 达到更新条件,则分别从成功经验池和失败经验池中按照比例随机采样,利用采样数据更新价值网络和策略网络; 未达到更新条件,则进行终止状态的判断;步骤S4包括: S41、达到更新条件时,从成功经验池和失败经验池中按照比例随机采样,得到的采样数据定义为s,a,s′,r,d,其中s表示当前状态,a表示动作,s′表示下一个时刻的状态,r表示奖励,d表示结束值; S42、利用采样数据s,a,s′,r,d,目标网络更新价值网络和策略网络 步骤S42具体包括以下步骤: S421、用最小损失函数Loss来更新价值网络最小损失函数Loss的公式表达为: 其中,N为采样数据的批次大小,λ为正则化参数,y是时序差分目标值,用以计算当前价值估计的误差,其公式表达为: y=r+γ1-dVs′; 其中,γ为折扣因子,表示未来奖励的价值衰减;Vs′为价值函数估计值,其公式表达为: Vs′=ν·min{Q1s′,a′,Q2s′,a″}+1-ν·max{Q1s′,a′,Q2s′,a″}; 其中,ν∈[0,1,是平衡目标价值网络的参数,表示在下一时刻的状态s′和动作a′下,两个目标价值网络输出的价值中的最小值,表示在下一时刻的状态s′和动作a′'下,两个目标价值网络输出的价值中的最小值; 其中,a′、a″分别表示下一个时刻的状态s′根据目标策略网络和在噪声∈下得到的下一个时刻的动作,公式表达为: S422、采用策略梯度更新策略网络公式表达为: 其中,Jφi表示策略的目标函数,用以评价策略在环境中的预期回报,表示在动作a等于策略网络在状态s下输出的动作时,对动作a的梯度,表示在状态s,动作a下的价值,表示策略网络在状态s处的参数梯度,用于更新策略网络的参数φi; S5、判断无人机是否达到终止状态: 未达到终止状态,则重新进行步骤S3; 达到终止状态,则根据奖励值判断是成功的终止状态还是失败的终止状态;判断为成功的终止状态,将临时经验池清空,其数据全部放到成功经验池,判断为失败的终止状态,将临时经验池清空,其数据全部放到失败经验池; S6、清空临时经验池后,重新回到步骤S2,重复步骤S2-S5,进行多次迭代,验证所述改进TD3算法整体模型的效果。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人安徽大学,其通讯地址为:230601 安徽省合肥市经济技术开发区九龙路111号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励