南京理工大学张伟斌获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉南京理工大学申请的专利一种基于深度强化学习的高速公路合流区协同控制方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120088976B 。
龙图腾网通过国家知识产权局官网在2026-01-30发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510005116.2,技术领域涉及:G08G1/01;该发明授权一种基于深度强化学习的高速公路合流区协同控制方法是由张伟斌;李鹏飞;董颖月;乔宇;王淇;徐雨彤;宋宇昊;甘露设计研发完成,并于2025-01-02向国家知识产权局提交的专利申请。
本一种基于深度强化学习的高速公路合流区协同控制方法在说明书摘要公布了:本发明公开了一种基于深度强化学习的高速公路合流区的协同控制方法,建立LiikeSim‑Python联合仿真环境,在仿真环境中设置线圈检测器获取高速公路合流区上下游的交通流数据;采用基于高斯混合分布的EM算法作为交通状态分类器,以高速公路合流区的交通流数据为输入,对高速公路合流区的交通状态进行划分;设计状态空间、动作空间和奖励函数;以高速公路合流区的状态空间作为输入,以可变限速智能体和匝道计量智能体的动作作为输出,构建时序特征下的多智能体共享经验的网络模型;为可变限速和匝道计量智能体分别设置一个独立的经验池,以控制周期为频率收集智能体与交通仿真环境的交互经验;使用抽样样本训练智能体模型;利用训练得到的智能体模型实现高速公路合流区的协同控制。本发明能够降低高速公路合流区交通的行程延误。
本发明授权一种基于深度强化学习的高速公路合流区协同控制方法在权利要求书中公布了:1.一种基于深度强化学习的高速公路合流区协同控制方法,其特征在于,包括如下步骤: 步骤1,根据真实路网环境和交通流数据建立LiikeSim-Python联合仿真环境,并在仿真环境中设置线圈检测器获取高速公路合流区上下游的交通流数据; 步骤2,采用基于高斯混合分布的EM算法作为交通状态分类器,以高速公路合流区的交通流数据为输入,对高速公路合流区的交通状态进行划分; 步骤3,根据步骤1线圈检测器获取的高速公路合流区上下游的交通流数据和步骤2中交通状态分类器得到的合流区的交通状态设计状态空间、动作空间和奖励函数; 步骤4,以步骤3中高速公路合流区的状态空间作为输入,以可变限速智能体和匝道计量智能体的动作作为输出,构建时序特征下的多智能体共享经验的网络模型,包含用于提取高速公路交通流时序特征的LSTM时序特征融合模块,以及用于输出智能体动作的D3QN决策模块; 步骤5,为可变限速和匝道计量智能体分别设置一个独立的经验池Bi,并以步骤3中的控制周期为频率收集智能体与交通仿真环境的交互经验; 步骤6,根据设定的批次大小从经验池中随机抽样,使用抽样样本训练智能体模型,包括可变限速智能体和匝道计量智能体; 步骤7,重复步骤5和步骤6,直到奖励达到收敛状态,并保存智能体模型参数,利用训练得到的智能体模型实现高速公路合流区的协同控制; 其中, 步骤3,根据步骤1线圈检测器获取的高速公路合流区上下游的交通流数据和步骤2中交通状态分类器得到的合流区的交通状态设计状态空间、动作空间和奖励函数,具体为: 1状态空间S 状态空间由一维向量s=[qin,qr,wr,qout,qm,ρm,vm,Q]来表示高速公路合流区的交通流状态,其中[qin,qr,wr,qout,qm,ρm,vm]为获取的高速公路合流区上下游的交通流数据,Q为交通状态分类器得到的合流区的交通状态,合流区上游路段的流量qin,匝道入口处的流量qr,匝道车辆排队长度wr,合流区下游路段的流量qout,合流区的流量qm,合流区的平均车辆密度ρm以及合流区的平均车速vm; 2动作空间 可变限速和匝道计量智能体动作分别设定为离散的可变限速路段的速度限制和匝道入口的绿灯相位持续时间,可变限速路段的速度限制设定为[60,65,70,75,80,85,90,100,110,120]kmh,匝道入口的绿灯相位持续时间设定为[6,12,18,24,30,36,42,48,54,60]秒,且可变限速和匝道计量智能体的控制周期均设定为60秒并保持同步; 3奖励函数r 同一个合流区的可变限速和匝道计量智能体共享奖励,奖励由合流区平均车速和匝道车辆排队长度共同决定,奖励函数设计为其中ω1,ω2为平均车速和匝道车辆排队长度的权重参数,wr,分别代表匝道车辆排队长度和理想匝道车辆排队长度,vm为合流区的平均车速,vvsl为可变限速路段的平均车速; 步骤4,以步骤3中高速公路合流区的状态空间作为输入,以可变限速智能体和匝道计量智能体的动作作为输出,构建时序特征下的多智能体共享经验的网络模型,包含用于提取高速公路交通流时序特征的LSTM时序特征融合模块,以及用于输出智能体动作的D3QN决策模块,具体包括以下步骤: 步骤4-1,基于LSTM长短期记忆网络构建时序特征融合模块,将高速公路合流区的交通流历史时序特征输入时序特征融合模块,通过输入门、遗忘门和输出门实现对合流区的交通流历史时序特征的有效管理和长短期依赖捕捉,进而输出融合历史时序特征的交通流特征,同时设定输入的交通流历史时序特征长度为len; 步骤4-2,基于D3QN深度强化学习算法构建可变限速和匝道计量智能体的决策模块,决策模块以步骤4-1中时序特征融合模块的输出为输入,并且通过引入决斗网络分离状态值和动作优势,决斗网络有状态价值网络和优势网络两个分支,其中,优势网络由两个全连接层串联组成,尺寸分别为256×256和256×10,状态价值网络由尺寸分别为256×256和256×1的全连接层串联组成,状态动作价值为优势网络输出求平均取差并与状态价值网络输出求和,即Qs,a;θ=Vs;θ+As,a;θ-meanAs,a;θ,其中Qs,a;θ表示智能体的状态动作价值函数,Vs;θ表示智能体的状态价值网络输出,As,a;θ和meanAs,a;θ分别表示智能体的优势网络输出和优势网络输出的平均值;随后,根据ε-greedy策略选取路段速度限制和绿灯相位持续时间作为决策模块的输出策略; 其中,r为一个服从均匀分布的随机数,即ai表示智能体i的输出策略,即路段速度限制和绿灯相位持续时间,Qis,ai;θi为智能体i的状态动作价值函数,为智能体i的动作空间,其中i=1,2分别表示可变限速和匝道计量智能体。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人南京理工大学,其通讯地址为:210094 江苏省南京市玄武区孝陵卫200号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励