江南大学陶洪峰获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉江南大学申请的专利一种机器人非提升优化迭代学习控制方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116713998B 。
龙图腾网通过国家知识产权局官网在2025-08-19发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310940409.0,技术领域涉及:B25J9/16;该发明授权一种机器人非提升优化迭代学习控制方法是由陶洪峰;王瑞;陶新悦设计研发完成,并于2023-07-28向国家知识产权局提交的专利申请。
本一种机器人非提升优化迭代学习控制方法在说明书摘要公布了:本发明公开了一种机器人非提升优化迭代学习控制方法,涉及机器人优化控制领域,该方法包括:将机器人阻抗控制系统的动力学方程转化为离散状态空间方程;将控制系统的控制过程描述为马尔可夫决策过程,分别设计有系统模型参数信息与无系统模型参数信息情形下的非提升优化ILC方法,相对于使用提升技术的优化ILC方法,减小了计算复杂度;针对有具体系统模型参数信息的情形,基于近似动态规划方法求解相应的贝尔曼方程,得到有系统模型参数信息情形下的非提升优化ILC方法;针对无系统模型参数信息的情形,基于Q‑学习方法,利用可测量数据通过最小二乘法实现指定性能指标的优化,得到无系统模型参数信息情形下的非提升优化ILC方法。
本发明授权一种机器人非提升优化迭代学习控制方法在权利要求书中公布了:1.一种机器人非提升优化迭代学习控制方法,其特征在于,所述方法包括: 第一步、建立机器人阻抗控制系统的动态模型,包括: 所述机器人阻抗控制系统的末端覆盖软材料,并与外界环境进行接触作业,则构建机器人阻抗控制系统的实际物理模型作为动态模型,表示为: 其中,M表示机器人的质量,Δxr表示机器人末端的运动位移,uf表示输入信号,c表示阻抗系数,fs·表示光滑的非线性函数,fsΔxr表示运动位移Δxr带来的作用力; 第二步、构建所述机器人阻抗控制系统的离散状态空间方程,包括: 将所述机器人末端的运动位移和机器人末端的运动速度定义为状态变量:定义输入变量为输入信号u=uf,输出变量为机器人末端的运动速度则式1所示的系统动态模型描述为: 对于式2所示的连续非线性系统模型,首先使用Jacobian线性化方法在平衡点Δxr=0[m]处得到线性化后的系统模型,再对所述线性化后的系统模型进行离散化,选取满足香农采样定理的采样周期Ts,得到所述机器人阻抗控制系统的离散状态空间方程: 式中,t表示采样时刻,k表示迭代批次,T表示批次过程的运行周期,且对于每一个重复运行周期t∈[0,T],取N个采样点;和分别表示所述机器人阻抗控制系统在第k迭代批次t采样时刻对应维度的输入、输出和状态向量;A、B和C为离散系统的参数矩阵,并满足CB满秩;假设系统每个迭代批次的初始状态保持一致,即xk0=0; 定义期望参考轨迹为ydt,则跟踪误差ekt定义为: ekt=ydt-ykt4 第三步、将所述离散系统的非提升优化迭代学习控制过程转化为马尔科夫决策过程,包括: 定义五元组其中: 代表状态空间,定义状态为跟踪误差ekt+1;代表动作空间,定义动作为输入变化Δuk+1t,即: Δuk+1t=uk+1t-ukt5 f代表状态转移函数,定义为: ek+1t+1=ekt+1-CAΔxk+1t-CBΔuk+1t6 其中,Δxk+1t为状态变化,即: Δxk+1t=xk+1t-xkt7 代表收益函数,定义为: 其中,收益函数由两部分组成,分别为跟踪误差和批次间输入信号变化,分别用对称正定权重矩阵Q和R来表示其优先级,即Q=QT0且R=RT0;所述跟踪误差和批次间输入信号变化的诱导范数定义为: γ代表折扣因子,且存在范围γ∈0,1],γ的大小决定了未来收益的现在价值; 当前批次的状态值函数定义为: 第四步、设计系统模型参数信息已知情形下的非提升优化迭代学习控制轨迹跟踪算法,包括: 上述转化的马尔科夫决策过程是一个沿迭代轴的线性二次调节问题,状态值是二次型的,因此式10还表示为: 其中,P是一个对称正定矩阵; 同时,基于近似动态规划,根据式8和式9,式10还表示为: 将式11进一步代入式12中,得到: 根据式13对Δuk+1t求二次型最优解,得到迭代学习更新律: uk+1t=ukt+Leekt+1+LxΔxk+1t14 其中,Le为误差项学习增益,Lx为批次间状态变化项学习增益,分别为: Le=γBTCTPCB+R-1γBTCTP15 Lx=-γBTCTPCB+R-1γBTCTPCA16 将式11代入式13,得到: 式17进一步表示为: 其中, D1=I-CBLe,D2=-CA-CBLx19 由式18得到用于求解式15和式16中P的贝尔曼方程: P=Q+Le TRLe+γI-CBLeTPI-CBLe20 当给定所述机器人阻抗控制系统的初始输入u0t,初始状态x0t,期望参考轨迹ydt,选定所述对称正定权重矩阵Q和R,一种系统模型参数信息已知情形下的非提升优化迭代学习控制轨迹跟踪算法设计如下: 步骤4.1:对离散系统3执行ukt以获得xkt+1和ykt+1,从而得到ekt+1和Δxk+1t; 步骤4.2:策略评估,根据式20得到更新后的P; 步骤4.3:策略迭代,根据式15和式16得到更新后的Le和Lx; 步骤4.4:根据迭代学习更新律式14更新下一批次的输入uk+1t; 步骤4.5:重复执行步骤4.1,直至采样次数达到N; 步骤4.6:重复执行步骤4.1,直至跟踪误差精度小于设定值,则算法结束; 第五步、设计模型参数信息未知情形下的非提升优化迭代学习控制轨迹跟踪算法,包括: 基于Q-学习算法设计模型参数信息未知情形下的非提升优化迭代学习控制轨迹跟踪算法,Q函数是状态动作值函数,定义为: 状态值函数是在策略Δuk+1t下的状态ekt+1的值函数,故与所述Q函数有着相同的数值,即: Vekt+1=Qekt+1,Δuk+1t22 针对最优迭代学习控制问题,将所述Q函数写作如下二次形式: 其中, 系统参数矩阵被分割定义为: 并且, Fee=Q+γP,Feu=-γPCB,Fex=-γPCA26 Fue=-γBTCTP,Fuu=R+γBTCTPCB,Fux=γBTCTPCA27 Fxe=-γATCTP,Fxu=γATCTPCB,Fxx=γATCTPCA28 根据式23对Δuk+1t求二次型最优解,得到迭代学习更新律: uk+1t=ukt+Lqτk+1t+129 其中, 为解决连续的状态空间和动作空间问题,使用实验数据来估计系统参数矩阵将式23参数化为: 其中, 回归向量定义为Zk+1自身的克罗内克积,即: 其中,zi为的第i个元素,且p=n+m+l2; 根据式32,式21表示为: 由于未知系统参数矩阵为对称矩阵,未知系统参数向量储存着共pp+12个独立元素,因此需要L≥pp+12个数据样本,以组成数据矩阵,进而使用最小二乘法估计系统参数向量; 定义所述数据矩阵为: 则所述未知系统参数向量的最小二乘法的解计算为: 当给定所述机器人阻抗控制系统的初始输入u0t,初始状态x0t,期望参考轨迹ydt,选定对称正定权重矩阵Q和R,一种系统模型参数信息未知情形下的非提升优化迭代学习控制轨迹跟踪算法设计如下: 步骤5.1:对离散系统3执行ukt以采集τk+1t+1,Zk+1t+1和的数据; 步骤5.2:根据迭代学习更新律式29更新下一批次的输入uk+1t; 步骤5.3:如果满足L≥pp+12,则执行步骤5.4,否则执行步骤5.6; 步骤5.4:策略评估,根据式38与式41得到并将复原为 步骤5.5:策略迭代,根据式31得到更新后的和从而组成Lq; 步骤5.6:重复执行步骤5.1,直至采样次数达到N; 步骤5.7:重复执行步骤5.1,直至跟踪误差精度小于设定值,则算法结束。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人江南大学,其通讯地址为:214100 江苏省无锡市梁溪区通沙路898号南楼七层;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。