当前位置 : 首页 > 专利喜报 > 同济大学张浩获国家专利权

同济大学张浩获国家专利权

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

龙图腾网获悉同济大学申请的专利一种基于深度强化学习的自动驾驶策略学习方法获国家发明授权专利权，本发明授权专利权由国家知识产权局授予，授权公告号为：CN116843019B 。

龙图腾网通过国家知识产权局官网在2025-10-03发布的发明授权授权公告中获悉：该发明授权的专利申请号/专利号为：202310863710.6，技术领域涉及：G06N3/092；该发明授权一种基于深度强化学习的自动驾驶策略学习方法是由张浩;汤书宁;邹亚杰;杨小雪设计研发完成，并于2023-07-14向国家知识产权局提交的专利申请。

本一种基于深度强化学习的自动驾驶策略学习方法在说明书摘要公布了：本发明提供一种基于深度强化学习的自动驾驶策略学习方法，属于强化学习和自动驾驶领域，包括如下步骤：1基于Gym库搭建可以与强化学习算法进行交互的自动驾驶数值仿真环境；2设计自动驾驶策略学习任务的奖励函数，奖励函数包括跟驰奖励、换道奖励、安全奖励和车道保持奖励；3设计状态空间，强化学习算法的状态空间包括主车的信息和主车周围四辆车的信息；4设计动作空间，包括一个离散型动作和两个连续型动作；5调整P‑DQN算法的网络结构和超参数，训练算法到达收敛。与现有技术相比，本发明使用具有混合动作空间的P‑DQN算法学习自动驾驶策略，不需要简化原有的动作空间，因此P‑DQN算法有着更好的稳定性和更高的学习效率。

本发明授权一种基于深度强化学习的自动驾驶策略学习方法在权利要求书中公布了：1.一种基于深度强化学习的自动驾驶策略学习方法，其特征在于，包括如下步骤： S1：基于Gym库搭建与强化学习算法进行交互的自动驾驶数值仿真环境； S2：基于S1搭建的自动驾驶数值仿真环境，设计自动驾驶策略学习任务的奖励函数，S3：设计状态空间； S4：设计动作空间； S5：调整P‑DQN算法的网络结构和超参数，然后训练算法直至收敛； S2中，所述奖励函数包括跟驰奖励、换道奖励、安全奖励和车道保持奖励，所述跟驰奖励具体为：主车和前车保持不变的车头时距；所述换道奖励具体为：主车的横向速度与换道方向相同；所述安全奖励具体为：避免主车与周围车辆发生碰撞以及主车不驶出道路边界线；所述车道保持奖励具体为：主车在不换道时，行驶于车道中心线；所述跟驰奖励的计算公式表示为：；所述跟驰奖励的计算公式中，为车辆的期望纵向速度；为车辆的真实纵向速度；为了避免所有的奖励皆为负数，奖励中加入一个常数项；所述车道保持奖励的计算公式表示为：；所述车道保持奖励的计算公式中，为主车所在车道编号，为主车的横向位置，表示车道宽度；所述安全奖励中，避免主车与周围车辆发生碰撞的计算公式表示为：；避免主车与周围车辆发生碰撞的计算公式中；为主车与周围车辆的纵向距离；为主车与周围车辆的横向距离；为纵向安全距离；为横向安全距离；所述安全奖励中，避免主车驶出道路边界线的计算公式表示为：；避免主车驶出道路边界线的计算公式中，为主车与道路左侧边界线的距离；为主车与道路右侧边界线的距离；为主车与道路边界线的安全距离；所述换道奖励的伪代码具体为： if 主车所在车道=理想车道；；为0else：为0为0if 理想车道主车所在车道： if : ； elseif : ； else: ； else: if : ； elseif : ； else: ；所述S3中，所述状态空间包括主车的信息和主车周围四辆车的信息，其中，每辆车的信息包括车辆的横向和纵向位置、横向和纵向速度、横向和纵向加速度、车辆编号、车辆所在车道编号；所述S4中，所述动作空间为混合动作空间，包括一个离散型动作和两个连续型动作，所述离散型动作为换道决策动作，具体为：是否换道；所述连续型动作为主车的横向和纵向加速度。

如需购买、转让、实施、许可或投资类似专利技术，可联系本专利的申请人或专利权人同济大学，其通讯地址为：200092 上海市杨浦区四平路1239号；或者联系龙图腾网官方客服，联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

请提出您的宝贵建议，有机会获取IP积分或其他奖励

同济大学张浩获国家专利权

热门推荐

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务