Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
专利交易 积分商城 国际服务 IP管家助手 科技果 科技人才 商标交易 会员权益 需求市场 关于龙图腾 更多
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 大连交通大学刘丽娟获国家专利权

大连交通大学刘丽娟获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉大连交通大学申请的专利一种基于深度强化学习算法的多智能体道路交通信号控制方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116863729B

龙图腾网通过国家知识产权局官网在2026-03-03发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310903088.7,技术领域涉及:G08G1/081;该发明授权一种基于深度强化学习算法的多智能体道路交通信号控制方法是由刘丽娟;司桦设计研发完成,并于2023-07-21向国家知识产权局提交的专利申请。

一种基于深度强化学习算法的多智能体道路交通信号控制方法在说明书摘要公布了:一种基于深度强化学习算法的道路交通信号控制优化方法,包括:根据路网环境信息和当前时刻路口车辆流量信息确认所述交叉口所处的状态信息;在原有MUDQN算法提出了多个动作空间,在不同的条件下,执行不同动作空间里的动作,并且提出了新的状态空间和新的奖励函数。利用经验回放池中存储的数据来训练我们的模型,使多个智能体最终达到NASH均衡状态。其中,该交通信号控制优化方法的输入参数为对应于所述信号灯的交叉口观测信息和相邻路口当前获得的奖励值,该交通信号控制模型的模块的输出参数为当前时刻所述信号灯的相位。

本发明授权一种基于深度强化学习算法的多智能体道路交通信号控制方法在权利要求书中公布了:1.一种基于深度强化学习算法的多智能体道路交通信号控制方法,其特征在于,使用仿真软件SUMO创建多个不同岔路口道路环境,根据不同的岔路口设计不同的动作空间、状态空间和奖励函数,基于深度Q学习算法构建多智能体Q网络,然后训练直至收敛并且智能体之间达到Nash均衡,最后通过SUMO中的Traci接口达到和环境交互,该方法包括以下步骤: 步骤一、将大规模交通信号系统控制的交通路网构建为一个有向图,有向图的节点表示交通路口,边表示道路,大规模交通信号控制系统模型包括多个智能体,每个智能体与交通路网中的交通路口一一对应,猎取道路交叉口信息和交通车辆流量信息,根据以上数据用仿真软件对交通干线进行仿真,还原真实道路交叉口车辆交汇信息; 步骤二、从仿真环境中获取交叉口环境的信息,根据获取的环境信息设置深度强化学习模型的状态空间,状态空间作为深度强化学习模型的输入,深度强化学习模型的状态空间由大规模交通信号系统控制的各个交通路口的状态组成,模型的状态空间O表示为: 其中,表示智能体i当前的动作A,表示智能体i的F个车流方向的等待车的车辆数,表示智能体i的相邻智能体准备去往智能体i的F*个车流方向的等待车的车辆数,表示智能体i相邻的R个智能体当前的Q值,也称期望奖励值; 步骤三、设置深度强化学习模型的动作空间,模型的动作空间由大规模交通信号系统控制的各个交通路口的动作组成,不同的智能体有不同的动作空间,并且每个智能体拥有两个动作空间A和A*,同一个智能体的两个状态空间A和A*的执行动作时长不同,用来应对道路不同时期的变化流量的情况,当路口等待车辆数大于交叉口流量阈值时,使用动作空间A,否则使用动作空间A*,四相位十字路口智能体i的动作空间表示为: AiAi*=[a1,a2,a3,a4], 其中,[a1,a2,a3,a4]分别为[WET,NST,WEL,NSL],WET代表东西直行通行,NST代表南北直行通行,WEL代表东西左转通行,NSL代表南北左转通行; 二相位闸道合流智能体j的动作空间表示为: AjAj*=[a1,a2] 其中[a1,a2]分别为[P,S],P表示可以通行,S表示不可以通行; 当智能体执行的动作发生变化时,即绿灯通行车道发生变化时需要插入执行黄灯相位,以减缓绿灯相位突然变化带来的车辆安全问题; 步骤四、设置深度强化学习模型的奖励值函数,当交叉口根据模型的输出做出相应的动作后,根据变化的环境信息给交叉口做出的动作进行打分也就是奖励值,不同智能体所处的环境不同,奖励函数也不同: 1R1函数是指十字路口或者丁字路口的奖励函数: R1=ω1*rpeople+ω2*rvehicle 其中,ω1,ω2分别对应的权重,ω1+ω2=1;rpeople=∑kwtk-∑kwt-1k,表示t时刻所有行人等待的总时长和t-1时刻道路上所有行人等待的总时长的差值,k表示该路口所有的人行道;rvehicle=∑lptl-∑lpt-1l,表示t时刻当前道路上所有车辆速度为0的总时长和t-1时刻道路上所有车辆速度为0的总时长的差值,l表示该路口所有的进车道; 2闸道合流的奖励值函数R2: R2=μ1*rsafety+μ2*rcom 其中,rsafety为安全子奖励,rcom舒适子奖励,μ1,μ2分别为对应子奖励的权重,μ1+μ2=1; rsafety安全子奖励根据当前智能体动作做出第一次判断,当智能体做出动作S时,安全子奖励rsafety=0;当智能体执行动作为P时,再根据车辆间的间距做出第二次判断,当车辆间距小于最小安全间距时,安全子奖励rsafety=-100,当车辆间距大于最小安全间距时,安全子奖励其中di,e表示自车纵向位置,di,fdi,h分别表示主车道前后车辆的纵向位置,si,e表示自车纵向速度,si,f,si,h分别表示主车道前后车辆的纵向速度; rcom舒适子奖励, 其中rwait是指当前车辆的等待时长,rdif表示当前车辆的速度和主车道上前后车辆的平均速度的差值,分别为对应子奖励的权重, 步骤五、初始化经验回放池,获取大规模交通信号系统控制的多个智能体的状态、当前状态下的动作、期望奖励值动作以及完成动作后下一个状态存入经验回放池,当经验回放池中的数据存储量大于最小存储量时,从中抽取一批存储的数据用以神经网络训练;每抽取一批数据训练称作一集,设置目标抽取的训练集数; 步骤六、构建深度神经网络来拟合状态-动作价值函数,神经网络的输入是由从仿真环境中获取的状态信息构成的状态空间,神经网络的输出为输入状态下的每个动作的Q值,即当前状态下每个动作的期望奖励值,其中智能体利用Q学习方程来更新Q值,Q学习方程为: Qs,a=r+γ*maxQOt+1,aa∈AA* 其中r为当前动作的奖励,γ是损失因子,maxQOt+1,a表示将状态Ot+1输入的神经网络,然后输出的最大Q值;从经验回放池中抽取存储的数据来,使用神经网络输出的Q值和更新后的Q值通过均方差损失函数来训练神经网络网络,直至训练集数达到要求的目标训练集数,使各个智能体之间达到NSAH均衡并且目标网络收敛; 步骤七、通过Traci接口获取SUMO仿真软件产生的实时车辆状态信息输入训练完成的多智能体道路交通信号控制模型,每个路口得出对应的决策行为,并返回SUMO执行相应的相位。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人大连交通大学,其通讯地址为:116000 辽宁省大连市沙河口区黄河路794号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。