Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 同济大学高炳钊获国家专利权

同济大学高炳钊获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉同济大学申请的专利一种基于BLF-SRL的自动驾驶控制方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115016278B

龙图腾网通过国家知识产权局官网在2025-08-22发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210712700.8,技术领域涉及:G05B13/04;该发明授权一种基于BLF-SRL的自动驾驶控制方法是由高炳钊;张羽翔;程一帆;褚洪庆;陈虹设计研发完成,并于2022-06-22向国家知识产权局提交的专利申请。

一种基于BLF-SRL的自动驾驶控制方法在说明书摘要公布了:本发明涉及一种基于BLF‑SRL的自动驾驶控制方法,该方法包括以下步骤:步骤1:构建基于障碍李雅普诺夫函数的安全强化学习算法;步骤2:将自动驾驶控制系统建模为严格反馈形式的非线性系统;步骤3:采用步骤1中的基于障碍李雅普诺夫函数的安全强化学习算法实现自动驾驶控制系统在学习更新过程中系统部分状态约束的安全性以及每个反步子系统中的误差信号有效性。与现有技术相比,本发明具有实现自动驾驶控制系统在强化学习过程中的安全保证等优点。

本发明授权一种基于BLF-SRL的自动驾驶控制方法在权利要求书中公布了:1.一种基于BLF-SRL的自动驾驶控制方法,其特征在于,该方法包括以下步骤: 步骤1:构建基于障碍李雅普诺夫函数的安全强化学习算法; 步骤2:将自动驾驶控制系统建模为严格反馈形式的非线性系统; 步骤3:采用步骤1中的基于障碍李雅普诺夫函数的安全强化学习算法实现自动驾驶控制系统在学习更新过程中系统部分状态约束的安全性以及每个反步子系统中的误差信号有效性; 所述的步骤1中,基于障碍李雅普诺夫函数的安全强化学习算法的过程具体包括以下步骤: 步骤101:将严格反馈形式的非线性系统重建为误差系统; 步骤102:采用反步优化方法和BLF分别设计每个子系统的优化控制律; 步骤103:根据贝尔曼最优性原理分别定义每个子系统的贝尔曼最优条件; 步骤104:利用李雅普诺夫分析分别设计每个子系统的误差更新信号,在学习过程中依次对于每个子系统中未知函数项的迭代更新优化子系统的虚拟控制,以实现对于整体系统控制的优化; 所述的子系统包括z1子系统、zii=2,...,n-1子系统和zn子系统; 所述的步骤101中,严格反馈形式的非线性系统为: 其中,fjj=1,2,…,n和gjj=1,2,...,n分别为定义二阶严格反馈形式的非线性系统时所需的模型,n为子系统的数量,为状态变量,为状态向量,为控制输入,为系统输出; 为了优化系统控制达到系统期望输出yd,引入待优化的虚拟控制αii=1,...,n-1,定义误差状态z1=x1-yd和zi=xi-αi-1i=2,...,n,将待优化的非线性系统重新建立为误差系统: 其中,zjj=1,2,...,n为第j个子系统的误差状态,fjj=1,2,...,n和gjj=1,2,...,n分别为定义二阶严格反馈形式的非线性系统时所需的模型,n为子系统的数量,yd为系统期望输出; 误差系统呈现级联结构,通过优化引入的每一个虚拟控制αii=1,...,n-1最终优化系统的整体控制,所有的状态变量z=[z1,...,zn]T分为待约束状态变量和自由状态变量其中,ns为保证连续性的分段点,进而将学习问题描述为: 在整个学习过程中,优化系统控制跟踪系统期望输出yd的同时部分状态变量zi,i=1,...,ns始终保持在设计的安全区域内,其中,为正常数; 所述的步骤103中,根据贝尔曼最优性原理分别定义每个子系统的贝尔曼最优条件的过程具体为: 分别将Sub-Actor和Sub-Critic分解为BLFQLF项和采用独立的神经网络逼近的未知函数项,根据贝尔曼最优性原理定义子系统的贝尔曼最优性条件; 所述的步骤102~104中,对于z1子系统,采用反步优化方法和BLF设计z1子系统的优化控制律,并定义z1子系统的贝尔曼最优条件,进而设计误差更新信号的过程具体为: 在z1子系统中引入待优化的虚拟控制,定义z1子系统的最优性能指标函数为: 其中,为z1子系统的最优性能指标函数,为代价函数,为最优虚拟控制,κ1s和κ1c分别为权重系数,相应的HJB方程的表达式为: 其中,表示最优性能指标函数对z1求偏导,f1和g1分别为建立待优化的非线性系统所需的模型; 由于成立且有唯一解,通过求解得到最优虚拟控制为: 将最优虚拟控制分解设计为: 其中,为待学习的未知连续函数,κ1为一个正常数,由分解设计后的最优虚拟控制可得最优性能指标函数的偏导数的表达式为: 在z1子系统中,最优性能指标函数的偏导数和最优虚拟控制均为未知函数,其中的不确定项分别采用独立的神经网络逼近,根据分解设计后的最优虚拟控制和最优性能指标函数的偏导数得到其估计值和随后在Actor-Critic框架下,进行策略评估和策略改进,为最优虚拟控制的估计值,定义为Sub-Actora1,为最优性能指标函数的偏导数的估计值,定义为Sub-Criticc1; 由于HJB方程的非线性特性,无法直接得到解析形式的最优解,为了迭代得到其数值解,首先采用两个独立的神经网络逼近最优性能指标函数的偏导数和最优虚拟控制中的未知项,打破最优性能指标函数的偏导数与最优虚拟控制之间的相关性;进而在Actor-Critic框架下通过策略评估和策略改进迭代更新神经网络,以更新估计值和最终两者逐步满足相关关系进而得到系统的优化控制; 最优虚拟控制的估计值的表达式为: 其中,为Sub-ActorNN的期望输出; 最优性能指标函数的偏导数的估计值的表达式为: 其中,是Sub-CriticNN的期望输出; 将最优虚拟控制的估计值的表达式和最优性能指标函数的偏导数的估计值的表达式代入HJB方程中,进而得到HJB方程的估计值的表达式为: 获取z1子系统中的贝尔曼最优性条件,z1子系统中的贝尔曼最优性条件的表达式为: 在Sub-Criticc1中,进行当前虚拟控制的策略评估,最终目标为:通过迭代更新使得HJB方程的估计值达到最优值,即在Sub-Actora1中,采用Sub-Criticc1策略评估进行策略改进,最终通过迭代学习达到贝尔曼最优性条件; 定义贝尔曼残差的表达式为: Sub-CriticNN和Sub-ActorNN更新方程的表达式分别为: 其中,为Sub-CriticNN更新方程所需的误差变量,为Sub-ActorNN更新方程所需的误差变量,和分别为Sub-CriticNN和Sub-ActorNN的学习率; 最终,在z1子系统中,对最优虚拟控制和最优性能指标函数的偏导数进行估计,进一步通过Sub-CriticNN和Sub-ActorNN的更新方程对Sub-CriticNN和Sub-ActorNN进行迭代学习,以满足贝尔曼最优性条件; 所述方法还包括基于建立的自动驾驶控制系统设计消融试验,该消融试验中将保证学习更新过程中系统部分状态约束的安全性记为消融A,将在每个反步子系统中根据贝尔曼最优性条件推导得到误差信号记为消融B,消融A特指将zi子系统中的αi,aux设置为0,消融B特指不使用更新误差信号,设置多种实验工况进行消融实验,各个实验工况的设置分别为: #D1:β=1,δ=0 #D2:β~N1,0.8,δ=0.4 #D3:β~N1,0.4,δ=0.4 #D4:β~N1.2,0.6,δ=0.4 其中,β为真实系统轮胎力与制器模型轮胎力的比例系数,参数β的边界为[1-δ,1+δ],δ为边界参数,为由Fiala公式定义的轮胎力。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人同济大学,其通讯地址为:200092 上海市杨浦区四平路1239号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。