贵州大学谢明山获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉贵州大学申请的专利目标驱动导航的经验回放增强的强化学习方法、计算机设备及介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120540080B 。
龙图腾网通过国家知识产权局官网在2025-11-21发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510657141.9,技术领域涉及:G05B13/04;该发明授权目标驱动导航的经验回放增强的强化学习方法、计算机设备及介质是由谢明山;曾以春;邓艳芳设计研发完成,并于2025-05-21向国家知识产权局提交的专利申请。
本目标驱动导航的经验回放增强的强化学习方法、计算机设备及介质在说明书摘要公布了:本发明提供了一种目标驱动导航的经验回放增强的强化学习方法、计算机设备及介质,属于机器人自主导航技术领域。该方法通过构建机器人仿真环境,设计基于Actor‑Critic架构的深度强化学习算法,设计包含碰撞、到达目标点、线速度及避障行为奖惩机制的奖励函数,并引入贪婪经验回放机制,利用TD误差对经验数据进行重要性排序,结合贪婪采样与随机采样策略动态调整经验抽取概率,同时通过超参数优化控制训练过程。本发明采用上述的一种目标驱动导航的经验回放增强的强化学习方法、计算机设备及介质,可提高机器人在动态复杂环境中的导航效率和成功率,适用于工业仓储机器人、无人驾驶车辆、智能服务机器人等多种场景。
本发明授权目标驱动导航的经验回放增强的强化学习方法、计算机设备及介质在权利要求书中公布了:1.一种目标驱动导航的经验回放增强的强化学习方法,其特征在于,包括以下步骤: 构建机器人仿真环境,设计机器人模型及传感器数据采集模块; 设计基于Actor-Critic架构的神经网络,包括Actor网络和Critic网络; 结合Actor-Critic架构设计深度强化学习算法,采用延迟策略更新技术; 设计奖励函数,包括对碰撞、到达目标点、线速度及避障行为的奖惩机制; 设计贪婪经验回放机制,通过计算TD误差对经验数据进行重要性排序,结合贪婪采样与随机采样策略,动态调整经验抽取概率; 通过超参数优化控制训练过程,使机器人导航性能达到最佳; 延迟策略更新包括: 采用软更新方法同步主策略网络参数至目标策略网络; 采用软更新方法更新Q值网络参数至目标Q值网络; 奖励函数具体为: 其中,当机器人到达目标点时奖励值为+120,当机器人与障碍物发生碰撞时奖励值为-120,其余情况下,奖励值由线速度奖励、避障惩罚及微小负惩罚组成; action0表示机器人的线速度,goal表示机器人到达目标点,collision表示机器人碰撞障碍物,m.表示避障惩罚函数,min_laser表示激光雷达探测到的最近的障碍物的距离,归一化为0-1,当min_laser1时:mmin_laser=1-min_laser,当min_laser≥1时:mmin_laser=0; 步骤S5中,贪婪经验回放机制具体包括: 计算每个经验的TD误差δ: δ=|Q1st,at-Qtarget1|+|Q2st,at-Qtarget1|; Qtarget1=reward+1-done×discount×Qtarget; 其中,Q1st,at和Q2st,at分别表示目标策略网络对状态st以及行为at的评估,Qtarget表示目标策略网络对下一个状态及行为进行评估以后,取其中的评分最小值,Qtarget1表示中间值,reward表示奖励值,done表示机器人采取行为后是否结束了一个片段,若结束,done=True,若未结束,done=False,discount表示折扣因子; 基于TD误差对经验数据进行排序,并通过概率分布函数分配采样权重; 设置贪婪超参数greedy_count、random_count控制贪婪采样与随机采样的比例; 给梯度引入权重参数,通过调整系数平衡样本分布偏移。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人贵州大学,其通讯地址为:550025 贵州省贵阳市花溪区花溪大道南段2708号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励