山东大学常发亮获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉山东大学申请的专利基于人机协作的强化学习自动驾驶方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119636794B 。
龙图腾网通过国家知识产权局官网在2025-11-04发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411684413.6,技术领域涉及:B60W60/00;该发明授权基于人机协作的强化学习自动驾驶方法及系统是由常发亮;赵朝阳;刘春生;刘辉;黄一鸣;周君设计研发完成,并于2024-11-22向国家知识产权局提交的专利申请。
本基于人机协作的强化学习自动驾驶方法及系统在说明书摘要公布了:本发明公开了一种基于人机协作的强化学习自动驾驶方法及系统,属于自动驾驶技术领域。包括:获取自动驾驶车辆的当前状态;将自动驾驶车辆的当前状态输入训练好的自动驾驶网络进行处理,以获取自动驾驶车辆当前时刻的决策动作;引入无奖励策略学习方法,以人类接管成本最小化、动作分布熵和平稳度最大化为目标,通过显式干预机制和隐式干预机制对自动驾驶网络进行训练。设计了显式和隐式干预的价值函数,以最小的人类接管成本和舒适度最大化为目标,训练智能体在不可见的交通场景中进行驾驶;解决自动驾驶汽车在复杂动态交通环境中的策略优化问题。
本发明授权基于人机协作的强化学习自动驾驶方法及系统在权利要求书中公布了:1.基于人机协作的强化学习自动驾驶方法,其特征在于,包括: 获取自动驾驶车辆的当前状态; 将自动驾驶车辆的当前状态输入训练好的自动驾驶网络进行处理,以获取自动驾驶车辆当前时刻的决策动作; 其中,引入无奖励策略学习方法,所述无奖励策略学习方法具体为:根据折现因子和下一时刻生成策略对应的最大Q值,更新当前时刻的Q值;以Q值最大化为目标,优化智能体的驾驶策略; 以人类接管成本最小化为目标,通过显式干预机制对自动驾驶网络进行训练具体为:基于预设的显式干预价值函数,以存在人类专家干预时自动驾驶车辆自动动作的代理Q值和人类动作的代理Q值之间的差异最小化为约束进行优化; 以动作分布熵和平稳度最大化为目标,通过隐式干预机制对自动驾驶网络进行训练具体包括:基于预设的隐式干预价值函数,以自动驾驶车辆自动动作的代理Q值和人类动作的代理Q值差异最小化为约束进行优化;基于预设的动作分布熵函数,以无奖励代理值与熵正则化项之间的差异最小化为约束进行优化; 以平稳度最大化、动作分布熵最大化、显式干预最小化和隐式干预最小化为自动驾驶网络的综合目标,利用现有人类数据优化混合交通中的自动驾驶车辆策略,综合目标表示如下: ; 式中,表示期望值,表示自动驾驶策略,表示平稳度代理值函数,表示动作分布熵函数,表示显式干预价值函数,表示隐式干预价值函数,表示状态,表示自动驾驶汽车动作。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人山东大学,其通讯地址为:250061 山东省济南市历下区经十路17923号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励