东北大学翟明圆获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉东北大学申请的专利一种基于深度强化学习的路径规划奖励函数的设计方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119575965B 。
龙图腾网通过国家知识产权局官网在2025-07-29发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411662518.1,技术领域涉及:G05D1/43;该发明授权一种基于深度强化学习的路径规划奖励函数的设计方法是由翟明圆;宋志航;肖冬;姜楠;王景杨;闫泽林设计研发完成,并于2024-11-20向国家知识产权局提交的专利申请。
本一种基于深度强化学习的路径规划奖励函数的设计方法在说明书摘要公布了:本发明提供一种基于深度强化学习的路径规划奖励函数的设计方法,涉及路径规划技术领域。首先,计算智能体当前行驶速度与期望速度的欧氏距离,定义奖励公式,将奖励公式得到的计算结果作为奖励值赋予智能体;将障碍物分成动态障碍物和静态障碍物两类,计算两类碰撞障碍物时对智能体产生的速度障碍;计算智能体面对两种类型碰撞障碍物时最低逃脱速度障碍的成本值,并将成本值取负数作为奖励值来影响智能体的避碰行为;使用重要性因子对智能体面对动态障碍物时的最低逃脱速度障碍的成本值进行加权,得到加权后的成本;根据最安全的速度调整方向与智能体当前行驶速度的叉积、碰撞惩罚以及到达目标点奖励引导智能体学习避碰策略。
本发明授权一种基于深度强化学习的路径规划奖励函数的设计方法在权利要求书中公布了:1.一种基于深度强化学习的路径规划奖励函数的设计方法,其特征在于:包括以下步骤: 步骤1:计算智能体的期望速度; 步骤2:计算智能体当前行驶速度与期望速度的欧氏距离,定义奖励公式,将奖励公式得到的计算结果作为奖励值赋予智能体; 步骤3:通过判断障碍物是否具有速度,将障碍物分成动态障碍物和静态障碍物两类; 步骤4:采用最优交互碰撞避免算法分别定义在智能体周围一定范围内动态障碍物和静态障碍物产生的速度障碍; 步骤5:分别计算智能体面对两种类型障碍物时最低逃脱速度障碍的成本值,并将成本值取负数作为奖励值来影响智能体的避碰行为; 步骤6:使用重要性因子对智能体面对动态障碍物时的最低逃脱速度障碍的成本值进行加权,得到加权后的成本; 步骤7:通过加权后成本的梯度确认智能体当前状态下的最安全的速度调整方向,并给予智能体奖励和惩罚,引导智能体避碰障碍时选择合适的方向; 步骤8:根据智能体发生碰撞时障碍物的类型,给予不同数量的惩罚; 步骤9:根据智能体到达终点的数量给予相应的奖励; 其中,所述步骤5的具体方法为:设定函数该函数通过计算叉积的方式计算点p相对于有向直线的位置关系;其中,为有向直线,ax,ay为有向直线的起点,ux,uy为有向直线的方向,px,py为点p位置坐标; 智能体面对两种类型的障碍物时最低逃脱速度障碍的成本值的计算公式如下式所示: 其中,rvoca表示当智能体面对动态障碍物时的最低逃脱速度障碍的成本值,rvocs表示当智能体面对静态障碍物时的最低逃脱速度障碍的成本值;表示速度障碍的两条侧边,表示截止线,rc为智能体的碰撞半径,Oc为速度障碍顶部的圆心,M为静态障碍物上最接近智能体当前行驶速度的一个点; 其中,所述步骤6中重要性因子计算公式如下式所示: 其中,β为重要性因子,||d||表示智能体之间的相对距离; 将重要性因子加权到智能体面对动态障碍物时的最低逃脱速度障碍的成本值上,动态地调整不同距离的速度障碍对智能体奖励值的影响程度; 加权后的成本如下式所示: rvoca-β=βrvoca 其中,rvoca-β表示加权后的成本; 其中,所述步骤7的具体方法为:智能体当前状态下的最安全的速度调整方向e与智能体当前行驶速度v的外积的大小可以反映e相对v的方向,即当v×e0,代表e相对于v是向左的,v×e0时,e相对于v是向右的;在智能体学习向右避碰的策略时,当v×e0时,此时给予奖励,鼓励智能体从右侧进行避碰,当v×e0时,给予惩罚,惩罚智能体向左侧进行避碰。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人东北大学,其通讯地址为:110819 辽宁省沈阳市和平区文化路3号巷11号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。