哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)陆文杰获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)申请的专利基于最差情况的不确定性系统李雅普诺夫稳定强化学习控制算法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119439743B 。
龙图腾网通过国家知识产权局官网在2025-11-14发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411584075.9,技术领域涉及:G05B13/04;该发明授权基于最差情况的不确定性系统李雅普诺夫稳定强化学习控制算法是由陆文杰;冯昀轩;高浩文设计研发完成,并于2024-11-07向国家知识产权局提交的专利申请。
本基于最差情况的不确定性系统李雅普诺夫稳定强化学习控制算法在说明书摘要公布了:本发明公开了基于最差情况的不确定性系统李雅普诺夫稳定强化学习控制算法,包括以下步骤:S1、通过relu激活网络对系统动力学模型和不确定性边界进行建模;S2、确定鲁棒性条件,并将其用于预先确定吸引域的面积;S3、确定动力学模型不确定性和状态估计下的鲁棒性保证RL;S4、网络参数化建立;S5、对倒立摆和四旋翼无人机进行数值模拟。本发明采用上述的基于最差情况的不确定性系统李雅普诺夫稳定强化学习控制算法,仍然可以准确地找到最违逆的状态,从而强制其在不确定性下的稳定性,给出了鲁棒RL问题解存在性的几何视图来解释鲁棒性及其能力,在各种不确定性下对倒立摆和四旋翼机的数值模拟证明了所提出方法的有效性。
本发明授权基于最差情况的不确定性系统李雅普诺夫稳定强化学习控制算法在权利要求书中公布了:1.基于最差情况的不确定性系统李雅普诺夫稳定强化学习控制算法,其特征在于,包括以下步骤: S1、通过relu激活网络对系统动力学模型和不确定性边界进行建模; S2、确定鲁棒性条件,并将其用于预先确定吸引域; S3、确定动力学模型不确定性和状态估计下的鲁棒性保证的强化学习RGRL; S4、网络参数化建立; S5、对倒立摆和四旋翼无人机进行数值模拟; 假设二:假设系统模型不确定性和状态不确定性有界,其界分别记为和,则有: 5; 其中,|·|为无限范数,和都是以relu激活的神经网络的形式给出的; 步骤S2中,所述鲁棒性条件为不确定性最差情况下的稳定性条件,源自李雅普诺夫神经网络控制,当不涉及不确定性时,通过训练满足以下稳定性条件的耦合李雅普诺夫函数V:→R来保证系统的稳定性: 6; 7; 8; 其中D为吸引域,为平衡态,和属于K函数集,稳定性条件6到8保证了从吸引域D中任意状态开始的系统收敛于平衡状态; 步骤S2中,所述不确定性最差情况下的稳定性条件包括模型不确定性下的鲁棒性条件和状态不确定性下的鲁棒性条件: 在模型不确定性下,t+1时刻的状态并不完全由控制和机器人在t时刻的状态决定,因此,式8必须对t+1时刻的预测状态有效,则有: 9; 其中,10; 通过对处的李雅普诺夫函数进行泰勒展开式,其稳定性条件8变为: 11; 给定的随机性,并基于假设二,得到了一个更强且更充分的鲁棒性条件,如下所示: 12; 其中,与相比是可忽略的,考虑了动力学建模中不确定性的最差情况,并强制使李雅普诺夫值沿状态轨迹减小; 与给定机器人在t时刻的状态获得的控制相反,控制器实际上在状态估计处被计算,以确定控制估计,因此,稳定性条件需要考虑到状态估计的随机性;考虑到状态估计中最差情况下的不确定性,在处的李雅普诺夫值通过泰勒展开得到如下: 13; 其中李雅普诺夫函数的导数由链式法则求得,公式如下: 14; 其中,; 则状态估计不确定性下的鲁棒性条件如下: 15; 在假设二下,稳定性条件8变为新的鲁棒性条件如下: 16; 其中,被忽略,导数、和分别是状态、控制和控制器在状态中的分段常数; 步骤S3中,设表示李雅普诺夫网络中的可训练参数,β表示控制器网络中的可训练参数,利用条件7、12和16设计以下损失函数,以调节控制器网络和李雅普诺夫神经网络的训练,给出保证稳定性条件7的半正定义性的损失函数为: 17; 当模型动力学中只考虑模型不确定性δ时,沿轨迹的李雅普诺夫值应严格单调地增加,并通过满足鲁棒性条件12来保证,相应的损失函数设计为: 18; 当只考虑状态估计中的状态不确定性ϵ时,根据鲁棒性条件16设计损失函数: 19; 当同时考虑模型不确定性和状态不确定性时,稳定性条件8变为: 20; 然后,得到与稳定性条件公式20对应的损失函数,表示为: 21; 将目标函数和所有约束表示为的分段线性函数: 设表示所有可训练参数的集合,在训练的每次迭代中,使用前一次迭代的值,吸引域D的划分为: 设是一个当且仅当X在第分区中等于1的二进制,那么X被表示为分区的极值点的凸组合,通过引入松弛变量,将损失函数的优化问题转化为混合整数线性规划: 22a; 22b; 其中,问题系数、、和均为的显式函数,优化变量向量s由X和组成,则目标函数22a的最优值写成: ; 利用梯度通过反向传播对可训练参数集合θ进行优化。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院),其通讯地址为:518055 广东省深圳市南山区桃源街道深圳大学城哈尔滨工业大学校区;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励