清华大学李升波获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉清华大学申请的专利面向端到端自动驾驶的安全强化学习训练方法及装置获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119599088B 。
龙图腾网通过国家知识产权局官网在2025-11-04发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411432359.6,技术领域涉及:G06N3/092;该发明授权面向端到端自动驾驶的安全强化学习训练方法及装置是由李升波;张宇航;吕尧;段京良;何雷;杨雨杰;郑志龙;詹仙园;张亚勤;李克强设计研发完成,并于2024-10-14向国家知识产权局提交的专利申请。
本面向端到端自动驾驶的安全强化学习训练方法及装置在说明书摘要公布了:本申请涉及自动驾驶技术领域,特别涉及一种面向端到端自动驾驶的安全强化学习训练方法及装置,其中,方法包括:基于预设驾驶环境模型和不确定性约束衰减函数,检测车辆的当前决控策略的安全状态;利用预设集成模型拟合预设驾驶环境模型的分散随机误差;根据价值函数的自洽条件更新价值函数,评估当前决控策略的性能价值;根据不确定性约束衰减函数的自洽条件,更新不确定性约束衰减函数,扩展对应的可行区域;在安全状态达到预设等级时,基于随机误差、性能价值和扩展后的可行区域对当前决控策略进行迭代更新,直至当前决控策略的平均累计回报达到预设阈值或者达到最大迭代次数,得到最终可行决控策略,以强化目标自动驾驶系统。
本发明授权面向端到端自动驾驶的安全强化学习训练方法及装置在权利要求书中公布了:1.一种面向端到端自动驾驶的安全强化学习训练方法,其特征在于,包括以下步骤: 基于预设驾驶环境模型和不确定性约束衰减函数,检测车辆的当前决控策略的安全状态,以在所述安全状态达到预设状态的情况下采集预定数量的环境交互数据;其中,所述环境交互数据为在执行所述当前决控策略下,动作为所述安全状态时所采集的数据,其中,状态为环境状态,所述环境状态包括所述车辆自身位置、速度、感知模块输出的周围驾驶环境状态、预测模块输出的周围驾驶环境状态,所述动作包括车辆油门踏板开度、制动踏板开度、方向盘转角; 利用预设集成模型拟合所述预设驾驶环境模型的随机误差,得到拟合后的随机误差分布,其中,所述预设集成模型为多个初始化后的具有相同结构的神经网络经过训练后得到的神经网络模型; 获取所述当前决控策略的价值函数,并根据所述价值函数的自洽条件更新所述价值函数,得到更新后的价值函数,以利用所述更新后的价值函数评估所述当前决控策略的性能价值,其中,所述价值函数的自洽条件的表达式为: 其中,为损失函数,是折扣因子,是熵正则系数,为虚拟数据池,是状态变量,为转移后的环境状态,是动作变量,表示下一时刻策略输出的动作,为奖赏信号,为初始决控策略; 根据所述不确定性约束衰减函数的自洽条件,更新所述当前决控策略的不确定性约束衰减函数,得到更新后的不确定性约束衰减函数,以扩展所述更新后的不确定性约束衰减函数对应的可行区域,得到扩展后的可行区域,其中,所述不确定性约束衰减函数为: 其中,是在一定驾驶环境模型的随机误差模型的控制下,从状态开始在策略的控制下首次违反状态约束所需的状态转移数,若当前状态已经违反约束时,;若未来的状态永远都不会违反约束时,,是折扣因子,表示不确定性约束衰减函数的可训练参数; 所述不确定性约束衰减函数的自洽条件的表达式为: 其中,为当前决控策略对应的不确定性约束衰减函数,为不确定性约束衰减函数的可训练参数,是状态空间,是状态约束函数,集合是约束状态集合的补集合; 基于所述环境交互数据、所述随机误差分布、所述性能价值和所述扩展后的可行区域,对所述当前决控策略进行迭代更新,直至所述当前决控策略的平均累计回报达到预设阈值或者达到最大迭代次数,得到最终可行决控策略,以根据所述最终可行决控策略强化目标自动驾驶系统。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人清华大学,其通讯地址为:100084 北京市海淀区清华园1号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励