西北工业大学陈建忠获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉西北工业大学申请的专利一种基于指导学习的深度强化学习车辆队列控制方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116088502B 。
龙图腾网通过国家知识产权局官网在2025-09-16发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211623780.6,技术领域涉及:G05D1/43;该发明授权一种基于指导学习的深度强化学习车辆队列控制方法是由陈建忠;吴晓宝;许智赫;吕泽凯;王文杰设计研发完成,并于2022-12-16向国家知识产权局提交的专利申请。
本一种基于指导学习的深度强化学习车辆队列控制方法在说明书摘要公布了:本发明公开了一种基于指导学习的深度强化学习车辆队列控制方法,首先,引入自适应巡航控制模型作为强化学习智能体训练初期的指导器,并设计动作合成器,将强化学习智能体的动作输出和指导器的输出进行融合;在后期的训练过程中,通过设计合理的奖励机制来激励智能体逐渐减小甚至忽略指导器的输出,从而让智能体经过动作探索能够学习到优于初期指导的策略函数;所设计强化学习算法无需进行复杂的车辆动力学模型建模,只依赖设计的观测空间,在奖励函数的激励下寻找最优策略函数,凸显了无模型算法的优势;最后,在保证安全决策的前提下,所设计的基于指导的深度强化学习的算法可以训练智能体做出比传统控制策略更合理、更类人的控制策略。
本发明授权一种基于指导学习的深度强化学习车辆队列控制方法在权利要求书中公布了:1.一种基于指导学习的深度强化学习车辆队列控制方法,其特征在于,包括以下步骤: 步骤1:由N辆智能网联车辆组成一个车辆队列,队列中车辆的动力学模型描述如下: 其中,i=0,1,...,N表示第i辆车;x0t和v0t分别表示领航车的位置和速度,ades_0t表示领航车的加速度,其变化由人为给定;xit、vit和ades_it,i=1,...,N分别是车辆队列中第i辆跟随车的位置、速度和期望加速度,其中跟随车的期望加速度是强化学习智能体决策过程中的动作输出;aactual_it表示车辆的实际加速度,τ车辆发动机的时间常数; 步骤2:构建车辆队列系统环境; 车辆间的相对距离dreal_i由前车的实际位置减去本车的实际位置获得: dreal_i=xi-1t-xit2 定义车辆间预期间距为dsafe_i: dsafe_i=Ddefault+vego_i*tgap3 其中Ddefault是车辆静止时的间距,vego_i是本车速度,tgap是车头时距; 定义间距误差derr_i为: derr_i=dsafe_i-dreal_i4 跟随车辆的期望速度vdes_i按如下定义:如果derr_i大于零,即dreal_i小于dsafe_i,后车的期望速度vdes_i给定为其前车速度vego_i-1和设定速度vset二者中的最小值,则后车和前车保持一定的安全距离;如果dreal_i大于dsafe_i,后车的期望速度vdes_i则给定为设定速度vset,即: 速度误差定义如下: verr_i=vdes_i-vego_i6 步骤3:设计基于指导的深度强化学习算法; 步骤3-1:指导器的设计; 引入自适应巡航控制模型作为强化学习智能体训练的指导器,包括速度控制模式和间距控制模式; 对于第i辆跟随车,在速度控制模式下,智能网联车辆的期望加速度如下: avc_i=Kv*vtar_i-vego_i7 其中,Kv为速度控制增益,vtar_i是第i辆跟随车的期望速度; 间距控制模式下,第i辆跟随车的期望加速度由下式给出: asc_i=Kv*vpf_i-Kd*derr_i8 其中,Kd为间距的控制增益;vpf_i=vego_i-1-vego_i是本车和前车的速度差值; 综合考虑自适应巡航控制模型的速度控制和间距控制,给出最终第i辆跟随车的期望加速度如下: 步骤3-2:深度确定性策略梯度DDPG算法; DDPG算法使用四个人工神经网络,分别是:Actor网络、Critic网络、Actor目标网络、Critic目标网络来近似行为策略函数和目标策略函数; Actor网络用于近似行为策略μ,通过决策网络参数θμ进行参数化的Actor网络的输出为: at=μst|θμ10 其中,st表示当前状态,θμ表示在策略μ下的Actor网络参数,μst|θμ表示在网络参数θμ条件下,智能体在当前状态st的决策输出; 基于OU过程,DDPG算法在动作输出上加入高斯噪声: 式中,Nt表示动作探索的噪声; Critic网络参数化为θQ,用于近似值函数: 经验池中存放的数据格式为:st,at,rt,st+1,rt表示智能体决策后的即时奖励,st+1表示智能体决策后转移到的状态;从经验池中抽取小批量数据对以上的四个网络进行训练更新参数;Critic网络按照以下的损失函数进行参数更新: 其中,yi表示目标回报值,ri表示当前状态下的即时奖励,γ表示折扣因子,si+1表示当前状态的下一个状态,θμ′是目标策略网络参数,θQ′是目标价值网络参数,μ'si+1|θμ'表示目标输出动作,Q'si+1,μ'si+1|θμ'|θQ'表示目标动作价值; 根据预期目标J的梯度,对Actor网络进行更新,为: 其中,表示动作值函数对动作的梯度,表示策略μ对策略网络参数θμ的梯度; 在Actor网络和Critic网络的参数更新之后对相应的两个目标网络的参数按照公式16进行软更新: 其中,τ是软更新参数; 步骤3-3:设计动作合成器: 引入自适应巡航控制模型作为强化学习智能体训练的指导器,并设计动作合成器,将强化学习智能体的动作输出和指导器的输出进行融合,其融合机制如下式所示: uSt=λ*uCt+1-λ*uAt17 其中,uSt=as_1,as_2,...T是融合之后的动作值向量,uCt=ac_1,ac_2,...T是指导器的输出向量,uAt=aA_1,aA_2,...T是强化学习智能体的决策动作向量,λ是权重值; 步骤4:设计基于指导的深度强化学习算法的动作空间、状态空间以及奖励函数; 动作空间列向量定义为A=aA_1,aA_2,...,aA_i,...,λT,其中aA_i分别是N-1辆跟随车的输出加速度; 对系统中的N-1辆跟随车分别选取三个状态观测输入;对于第i辆跟随车,选取本车速度vego_i、与前车的速度误差verr_i以及速度误差的积分∫verr_i作为第i辆跟随车的状态观测;在系统状态观测中添加指导器的输出值ac_i和智能体决策动作值aA_i的差值aE_i,即aE_i=ac_i-aA_i;整个系统状态观测向量为s: 从稳定性、舒适性、跟车效率三个方面选取车辆的速度误差verr_i、间距误差derr_i、本车加速度aA_i指标设计系统的奖励函数; 步骤5:整定算法训练超参数,训练基于指导学习的DDPG智能体输出最优控制策略; 超参数ηA表示Actor网络的学习率,超参数ηC表示Critic网络的学习率,超参数M表示经验池大小,超参数α表示批处理大小,超参数γ表示折扣因子,超参数Te表示最大训练步,超参数表示目标平滑因子,超参数Tf表示单幕最大训练步。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人西北工业大学,其通讯地址为:710072 陕西省西安市友谊西路;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。
请提出您的宝贵建议,有机会获取IP积分或其他奖励