大连理工大学徐永成获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉大连理工大学申请的专利一种基于深度强化学习的移动机器人在线路径规划方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116400701B 。
龙图腾网通过国家知识产权局官网在2025-07-25发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310391189.0,技术领域涉及:G05D1/43;该发明授权一种基于深度强化学习的移动机器人在线路径规划方法是由徐永成;王宏伟设计研发完成,并于2023-04-13向国家知识产权局提交的专利申请。
本一种基于深度强化学习的移动机器人在线路径规划方法在说明书摘要公布了:本发明公开了一种基于深度强化学习的移动机器人在线路径规划方法,具体步骤如下:通过激光雷达获取障碍物信息,通过ROS内置插件获取机器人位置信息以及目标点信息,将两者进行处理并整合为机器人状态S。将状态S输入至DDPG网络中获取最优执行动作,使得机器人在导航过程中迅速安全的到达目标点;设计LSTM与Actor网络级联的结构;改进的经验回放池的结构采用线段树,可以高效的更新由于回合数量不断增加导致的权重变化;针对Critic网络的优化采用添加动量项的分数阶梯度下降算法,相比整数阶既可以提高准确性又可以提高收敛速度;本发明用以解决常规DDPG用于机器人路径规划时存在的准确率低以及收敛速度慢等问题。
本发明授权一种基于深度强化学习的移动机器人在线路径规划方法在权利要求书中公布了:1.一种基于深度强化学习的移动机器人在线路径规划方法,其特征在于,步骤如下: 步骤1:移动机器人通过自身携带的激光雷达获取障碍物信息,通过机器人操作系统内置插件实时获取机器人位置信息和目标点信息并进行处理,与激光雷达获取的障碍物信息共同组成机器人的状态信息S; 步骤2:设计改进DDPG算法的神经网络结构模型:在DDPG算法的双网络结构的基础上,将主网络和目标网络的Actor网络设置为全连接层与LSTM网络级联的结构; 步骤3:设计改进DDPG算法中机器人的状态空间、动作空间以及奖励函数;其中奖励函数由四部分组成,到达目标点的奖励、撞到障碍物的惩罚、与目标点之间直线距离的奖罚以及出现连续相同动作时的惩罚; 步骤4:将移动机器人放置在设定环境中采用改进DDPG算法进行训练,使用训练完成后的神经网络完成机器人的无碰撞实时路径规划;机器人与环境交互所产生的每一条经验均根据设定放置在经验回放池中,用于训练神经网络参数;并使用改进的经验回放方法选取经验进行神经网络的训练;训练完成后使得神经网络的输出为机器人最优可执行动作,能够使得机器人快速安全的到达设定地点; 所述的步骤2中,改进DDPG算法的神经网络结构模型具体如下: DDPG算法由4个网络模块组成,包括两个Actor网络和两个Critic网络,其中两个Actor网络的结构完全相同,两个Critic网络的结构也完全相同; DDPG的输入端分别连接两个Actor网络和两个Critic网络;其中一个Actor网络和一个Critic网络组成DDPG的一个主网络,剩下两个网络组成DDPG的目标网络;网络参数初始化随机,主网络参数实时更新,目标网络参数依据主网络参数进行滑动更新; 主Actor网络的输入为机器人的状态信息,输出为机器人下一步的执行动作;目标Actor网络的输入为机器人下一步的状态信息,输出为预测到达该状态后将要执行的最佳动作,并不是真正下一步将要执行的动作; 主Critic网络输入为当前状态以及当前状态下所执行的动作,输出为在该状态下执行对应动作的评估价值;目标Critic网络的输入为下一步的状态信息和所预测的执行动作,输出为在该状态下执行预测动作的评估价值; 将主网络和目标网络的Actor网络与LSTM网络相结合,即主网络和目标网络的Actor网络前均级联一层LSTM网络; 使用添加动量项的分数阶梯度下降方法算法来更新Critic网络的参数;动量分数阶梯度下降算法具体公式如下: 式中Mt为t时刻的权重动量项,Nt为t时刻的偏置动量项,表示全连接层中第p层第i个神经元的第q个对应的权重值,表示全连接层中第p层第i个神经元的第q个对应的偏置值;表示当前的权重值,表示当前的偏置值;LOSS为目标网络输出的预估价值与和主网络输出的评估价值的均方误差损失函数;γ为分数阶阶次且0γ2,α为学习率且0α≤1,δ为动量项系数且0δ1,δ用于决定前一时刻的梯度更新方向对当前时刻的影响程度;ε为一个极小的正数,用于避免参数更新时出现奇异值; 所述的步骤4中,改进的经验回放方法具体如下: 在机器人从出发点行进过程中,撞到障碍物或到达目标点记为一回合,中间过程所产生的经验全部存入该回合中,将该回合放置在经验回放池中,并为该回合赋予初始权重,如该回合中的经验数量length条,则不放入经验回放池中;当经验回放池中的回合数量满足经验回放条件时,开始进行经验回放,每次共抽取m个回合用于神经网络参数的训练; 为了适应时序性LSTM网络的训练,从每回合中随机选取连续的n条经验,则共m*n条经验,在网络参数更新的同时计算每回合中n条经验的时间差误差TD_ERROR的总合,记为该回合的TD_ERROR;更新结束后,根据TD_ERROR的大小来更新经验回放池中对应回合的权重;在每次经验抽取结束后,需等待机器人运行UPDATE个回合后,再次进行经验抽取; 具体地,抽取经验时,将经验池内的回合均分为m层,同时在每层中利用random函数随机生成一个随机数0-1,并找到第i项,满足前i项权重的总合小于该随机数,根据离散权重有效地对索引进行采样,具体如下所示: batchsize=ptotalm Ttarget=random*batchsize+0~m*batchsize i=sumarr[0]+arr[1]+...+arr[i-1]≤Ttarget 式中ptotal为经验回放池中回合的总数,Ttarget为最终生成的随机数,arr为经验回放池。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人大连理工大学,其通讯地址为:116024 辽宁省大连市甘井子区凌工路2号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。