大连大学文世喜获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉大连大学申请的专利基于强化学习策略的智能网联车辆分布式优化控制方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119087808B 。
龙图腾网通过国家知识产权局官网在2025-09-23发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411210889.6,技术领域涉及:G05B13/04;该发明授权基于强化学习策略的智能网联车辆分布式优化控制方法是由文世喜;李进锡;何怡文;赵园;李驰设计研发完成,并于2024-08-30向国家知识产权局提交的专利申请。
本基于强化学习策略的智能网联车辆分布式优化控制方法在说明书摘要公布了:本发明提供基于强化学习策略的智能网联车辆分布式优化控制方法,具有分层结构,包括以下步骤:建立车辆纵向动力学模型,并设定上层及下层的控制目标;对上层即轨迹优化控制层进行设计;基于分布式凸优化算法结合内模原理的轨迹规划控制器,结合内模原理设计的控制器去除上层轨迹规划过程中的外部干扰;对下层即跟踪控制层进行设计;基于强化学习Actor‑Critic框架的最优轨迹跟踪控制器;通过Lyapunov稳定性判据分析跟踪控制系统的稳定性及收敛性,保证对参考轨迹的精确跟踪;通过仿真实验验证所提算法的可行性。本发明针对网联车辆列队控制中的轨迹规划与轨迹跟踪控制问题进行研究,摆脱对于精准的车辆动力学方程的依赖。
本发明授权基于强化学习策略的智能网联车辆分布式优化控制方法在权利要求书中公布了:1.基于强化学习策略的智能网联车辆分布式优化控制方法,具有分层结构,其特征在于,包括以下步骤: 步骤1:建立车辆纵向动力学模型,并设定上层及下层的控制目标;所述步骤1中,定义,和分别表示第辆车的位置,速度和加速度,领航车编号为0,跟随车的编号为1到;通过有向连通图表示车队的通信拓扑结构,每辆跟随车均通过车载自组网与相邻车通信获取信息,且车间的通信稳定且可靠;只考虑车辆纵向动力学模型,建立纵向动力学模型为底层控制器的设计提供依据,车辆的纵向动力学模型表示为: ; 其中,,表示车辆传动系统不确定时间常数,表示跟随车的下层系统控制输入;对车辆定如下跟踪误差: ; 其中,表示车辆与车辆之间的期望车间距;采用恒定间距策略,即; 所述上层的轨迹规划控制目标为: ; ; 其中,表示代价函数,且是凸函数; 所述下层的系统误差方程为: ; 其中,,,分别表示上层、规划的参考位置、参考速度以及参考加速度;定义跟踪误差向量表示为,因此,车辆的误差动力学方程表示为: ; 其中,,,定义轨迹跟踪控制层的控制目标为: ; 步骤2:对上层即轨迹优化控制层进行设计;基于分布式凸优化算法结合内模原理的轨迹规划控制器,结合内模原理设计的控制器去除上层轨迹规划过程中的外部干扰;所述步骤2中,定义参考动力学方程为: ; 其中,表示车辆上层受到的外部干扰,表示关于的多项式,表示多项式系数,,,表示控制增益;则的扰动为: ; 其中,,矩阵的所由特征值具有非负实部; 根据参考参考动力学方程,则分布式输出反馈控制器,表示为: ; 其中,,表示的度;引入参考位置误差、参考速度误差和参考加速度误差表示为: ; 根据上式得到: ; 求导得: ; 则,控制目标为: ; 分布式优化问题有可行解,对任意集合、、,向量,,,常数,可以设计分布式优化控制器,保证闭环系统的解收敛到同一点,对任意的和; 步骤3:对下层即跟踪控制层进行设计;基于强化学习Actor-Critic框架的最优轨迹跟踪控制器,其中,Actor网络用于逼近最优跟踪控制器,Critic神经网络用于逼近最优代价函数;所述步骤3中,控制输入为最优时,系统跟踪误差动力学模型改写为: ; 则最优代价函数为: ; 结合最优控制理论,求导构建相应的HJB方程: ; 其中,表示代价函数最优梯度值;根据最优控制理论,系统的HJB方程应满足: ; 根据,故理想的最优控制器的控制律表示为: ; 带入HJB方程得 ; 步骤4:通过Lyapunov稳定性判据分析跟踪控制系统的稳定性及收敛性,保证对参考轨迹的精确跟踪; 步骤5:通过仿真实验验证所提算法的可行性; 所述Critic神经网络中,最优代价函近似为: ; 其中,表示最优代价函数的理想权重矢量,,表示神经元数量,表示神经元回归矢量,并且,,,表示网络逼近误差; 最优代价函数对应的梯度表示为: ; 其中,,表示关于的梯度;得到函数逼近误差的残差,表示如下: ; 随着隐藏层N的增加,残差逐渐收敛到零;即, ; 由于理想权重矢量是未知的,引出代价函数的估计值逼近以获得实际最优代价函数: ; 其中,表示理想权重的估计值; 则HJB方程改写为: ; 给定任意控制策略,调整适当的使得的平方最小,定义如下目标函数: ; 根据梯度下降算法,所述Critic神经网络的权重更新律: ; 其中,,用于归一化,表示学习率; 定义下权重估计误差,得到权重估计误差更新律为: ; 其中,,; 则存在常数,,,满足: ; 则当时,权重估计误差收敛到零,或者有界贝尔曼误差可使Critic权重估计误差收敛到残差集;所述Actor网络逼近的最优控制策略的控制律为: ; 其中,表示理想神经网络权重的估计值,Actor网络的权重更新率为: ; 其中,,是有界的,,即,是设定的正常数,,为调节参数,表示Actor网络学习率;Critic神经网络的权重更新律为: ; 其中,,。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人大连大学,其通讯地址为:116622 辽宁省大连市金州新区学府大街10号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励