哈尔滨工业大学雷文骁获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉哈尔滨工业大学申请的专利基于无模型强化学习的漂浮基空间机械臂末端位置控制方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116442235B 。
龙图腾网通过国家知识产权局官网在2025-10-31发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310528161.7,技术领域涉及:B25J9/16;该发明授权基于无模型强化学习的漂浮基空间机械臂末端位置控制方法是由雷文骁;孙光辉;周栋;赵彤宇设计研发完成,并于2023-05-11向国家知识产权局提交的专利申请。
本基于无模型强化学习的漂浮基空间机械臂末端位置控制方法在说明书摘要公布了:基于无模型强化学习的漂浮基空间机械臂末端位置控制方法,它属于空间机械臂控制领域。本发明解决了基于现有的无模型强化学习算法得到的控制器缺乏鲁棒性和稳定性的问题。本发明将Lyapunov方法引入强化学习,使得通过强化学习得到的算法具有了稳定性保障,提升了算法对环境参数变化和外部扰动的鲁棒性。基于采样的Lyapunov稳定性条件,从而可以在无需系统模型的条件下通过Lyapunov方法对系统稳定性进行判断,在无模型优化过程中加入对策略稳定性的约束。采用了独立于价值函数、奖励函数的Lyapunov函数和Lyapunov代价函数,避免动作空间的探索受限并提升了更新效率。本发明方法可以应用于空间机械臂末端位置控制。
本发明授权基于无模型强化学习的漂浮基空间机械臂末端位置控制方法在权利要求书中公布了:1.基于无模型强化学习的漂浮基空间机械臂末端位置控制方法,其特征在于,所述方法具体包括以下步骤: 步骤一、确定漂浮基空间机械臂系统的输入状态变量和控制输出类型; 步骤二、根据空间机械臂的动作空间维度确定控制策略函数πθ、价值函数Qφ和Lyapunov函数Lψ的网络结构,θ是控制策略函数的网络参数,φ是价值函数的网络参数,ψ是Lyapunov函数的网络参数; 步骤三、设计奖励函数和Lyapunov代价函数; 步骤四、设置总训练步数、每一幕的长度、策略更新时batch的大小、缓冲器的容量以及策略更新频率; 步骤五、初始化控制策略函数πθ、价值函数Qφ和Lyapunov函数Lψ的网络参数,并设置目标价值函数将目标价值函数的网络参数初始化为价值函数Qφ的网络参数; 步骤六、对环境进行重置,将空间机械臂系统置为初始状态,并设置目标位置; 步骤七、从环境中获取当前状态st后,将获取的当前状态st输入控制策略函数πθ,空间机械臂执行控制策略函数πθ输出的动作at并进入下一个状态st+1; 将元组st,at,rt,ct,st+1存入缓冲器,其中,rt是空间机械臂在当前状态st执行动作at获得的奖励,ct是空间机械臂在当前状态st执行动作at获得的Lyapunov代价;将空间机械臂每执行一次动作并进入下一状态定义为一步; 步骤八、判断当前幕的任务是否结束,即判断步数是否达到当前幕的长度; 若当前幕的任务未结束,则利用状态st+1返回步骤七; 否则,当前幕的任务结束,则判断是否达到策略更新频率; 若达到策略更新频率,则从缓冲器中采样一个batch的元组更新控制策略函数πθ、价值函数Qφ和Lyapunov函数Lψ的网络参数,并将更新后的价值函数Qφ网络参数复制到目标价值函数再返回步骤六; 否则未达到策略更新频率,则执行步骤九; 步骤九、判断是否达到设置的总训练步数,若达到设置的总训练步数,则结束训练并执行步骤十,否则未达到设置的总训练步数,则返回步骤六; 步骤十、将结束训练时获得的控制策略函数的网络参数作为训练好的网络参数,根据训练好的网络参数对漂浮基空间机械臂系统进行实时控制。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人哈尔滨工业大学,其通讯地址为:150001 黑龙江省哈尔滨市南岗区西大直街92号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励