Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
专利交易 商标交易 积分商城 国际服务 IP管家助手 科技果 科技人才 会员权益 需求市场 关于龙图腾 更多
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 南京航空航天大学薛雅丽获国家专利权

南京航空航天大学薛雅丽获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉南京航空航天大学申请的专利一种基于动态窗口法引导的TD3无地图导航方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119472677B

龙图腾网通过国家知识产权局官网在2026-04-07发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411612842.2,技术领域涉及:G05D1/43;该发明授权一种基于动态窗口法引导的TD3无地图导航方法是由薛雅丽;柳佳乐;徐忠敏;俞潼安;贺怡铭设计研发完成,并于2024-11-13向国家知识产权局提交的专利申请。

一种基于动态窗口法引导的TD3无地图导航方法在说明书摘要公布了:本发明公开了一种基于动态窗口法引导的TD3无地图导航方法,具体涉及路径规划技术领域,获取机器人当前状态信息和目标位置;将当前状态信息和目标位置信息经过预处理后,输入达到改进TD3网络中,得到TD3输出动作,并结合改进评价函数与逃离机制获取改进DWA输出动作,将获取的两个动作输入到动作选择器输出最优动作;机器人执行最优动作,完成无地图导航任务。本发明通过对TD3网络结构进行改进,融合DWA动态窗口法与LSTM长短期记忆网络应用于无地图导航,该网络结构可以根据输入的目标点相对位置和机器人状态直接输出机器人动作即线速度与角速度,实现端到端的无地图导航。

本发明授权一种基于动态窗口法引导的TD3无地图导航方法在权利要求书中公布了:1.一种基于动态窗口法引导的TD3无地图导航方法,获取机器人当前状态信息和目标位置;将当前状态信息和目标位置信息经过预处理后,其特征在于:将预处理后的当前状态信息和目标位置信息输入到引入了长短期记忆网络LSTM模块的改进TD3网络模型中,得到TD3输出动作,基于动态窗口法DWA规划器,结合改进评价函数与逃离机制获取改进DWA输出动作,将获取的TD3输出动作和改进DWA输出动作输入到基于-贪心策略动作选择器输出最优动作;机器人执行最优动作,完成无地图导航任务; 其中,改进的TD3网络模型是在Actor和Critic网络中引入LSTM模块,改进TD3网络模型的训练步骤包括: aGazebo仿真环境启动,ROS节点启动,机器人模型加载,获取机器人当前状态和目标点位置,并进行相关预处理; b将预处理后的动作输入到Actor网络,获得动作,并且通过DWA规划器的输出获得,将两个动作输入到动作选择器,输出最终选择最优动作; c机器人在Gazebo环境执行最优动作,并返回新的状态、奖励值和是否完成当前回合的标志,将当前时刻的状态值、动作值、奖励值和时刻的状态值存储到经验回访池中; d直到经验回放池中的数据量足够,从经验回放池中随机采样一个大小为batch_size的样本批次;通过采样得到的样本批次对Actor网络进行更新,在TD3算法训练过程中,网络从经验池中获取,通过目标Actor网络推理得到时刻动作,再由两个Critic网络计算得到Q值,计算出目标值,使用目标Q值计算Critic网络的损失函数,并分别更新两个Q网络; e通过Critic网络评估当前策略的表现,计算Critic网络输出Q值的平均负值以执行梯度上升操作,反向传播计算Actor网络的参数梯度并更新Actor网络参数;在每次Q网络和策略网络更新之后,使用软更新来更新目标网络的参数; f不断重复步骤a-e,直到策略收敛或达到预设的训练次数; 其中,所述改进评价函数由三项组成,分别代表方位角、障碍物距离和速度大小;在机器人陷入局部最优时,将速度评价函数中的项将忽略,并以项作为主要速度评估指标,促使机器人优先逃离局部最优点; 所述逃离机制设计如下: 设计一种根据机器人左、右侧激光雷达探测数据来确定机器人转向角速度范围,引导机器人向障碍物不密集的地方转动;而左转与右转概率的大小为: ; 式中:代表激光雷达检测到左侧障碍物距离之和;代表激光雷达检测到右侧障碍物距离之和;为左转概率;为右转概率;为常数可根据激光雷达测距范围确定;最终逃离线速度和逃离角速度为: ; 式中:表示从到范围内的随机数; 改进的TD3网络模型将激光雷达数据、目标点位置与待评价动作输入到Critic网络中获得该动作的Q值,将激光雷达数据、目标点位置输入到Actor网络中获得线速度和角速度; 引入LSTM模块的Actor网络将激光雷达数据和目标点位置拼接到一起,大小为122,将其输入到一个大小为22600的全连接层,将输出特征输入到600600的LSTM层,接着将输出的特征再输入到一个6002的全连接层,并通过Tanh激活函数输出的即为最终动作; 引入LSTM模块的Critic网络将激光雷达数据和目标点位置拼接到一起输入到一个22600的全连接层,将输出特征输入到600600的LSTM层,接着将输出中间特征;待评价动作输入到一个2600的全连接层,该层输出中间特征;将特征和结合,通过ReLU激活函数生成中间特征,将输入到一个6001的全连接层,该层输出的即Q值; 设计一种基于-贪心策略动作选择器,在训练初期大量采用作为智能体执行动作,帮助智能体快速学会躲避障碍物,并向目标点方向移动;在训练末期,采用Action网络得到,基于-贪心策略动作选择器数学表达式如下: ; 式中,表示动作选择器的输出动作;表示TD3网络直接输出的动作;表示最终机器人所执行的动作;其中的概率是,的概率为;在训练初期,初始值较小,随着训练进行,逐渐递增到1。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人南京航空航天大学,其通讯地址为:210001 江苏省南京市秦淮区御道街29号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。