山东大学周乐来获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉山东大学申请的专利一种双轮足机器人复杂地形自适应运动控制方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120233686B 。
龙图腾网通过国家知识产权局官网在2025-08-15发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510724540.2,技术领域涉及:G05B13/04;该发明授权一种双轮足机器人复杂地形自适应运动控制方法及系统是由周乐来;范晟琳;孙靖宇;荣学文;李贻斌设计研发完成,并于2025-06-03向国家知识产权局提交的专利申请。
本一种双轮足机器人复杂地形自适应运动控制方法及系统在说明书摘要公布了:本发明公开了一种双轮足机器人复杂地形自适应运动控制方法及系统,涉及机器人运动控制技术领域。该方法包括步骤:构建包含机器人模型、障碍物和环境约束的复杂地形模型;构建运动决策控制器,利用强化学习模型针对不同的复杂地形模型采用非对称的训练策略对运动决策控制器进行多目标协同优化训练,其中,非对称的训练策略在更新时引入风险约束用于约束策略的行为;根据训练结果进行策略梯度反向传播,使用基于性能反馈的自适应学习率调整方法对非对称的训练策略进行优化。本发明通过在强化学习过程中设计非对称的训练策略和分段训练机制,解决了双轮足机器人在多种复杂地形环境中的高效、鲁棒、自适应的运动控制问题。
本发明授权一种双轮足机器人复杂地形自适应运动控制方法及系统在权利要求书中公布了:1.一种双轮足机器人复杂地形自适应运动控制方法,其特征在于,包括以下步骤: 根据双轮足机器人的姿态参数和运动参数构建机器人模型; 构建包含机器人模型、障碍物和环境约束的复杂地形模型; 构建运动决策控制器,利用强化学习模型针对不同的复杂地形模型采用非对称的训练策略对运动决策控制器进行多目标协同优化训练,其中,非对称的训练策略在更新时引入风险约束用于约束策略的行为; 强化学习的完整奖励函数为: , 其中,为主奖励函数,是速度跟踪奖励函数,是高度稳定性奖励函数,是触地惩罚函数,是运动稳定性奖励函数,是能量效率奖励函数,是针对特殊地形的奖励函数,为针对结构化台阶地形特化的权重参数; 多目标协同优化通过设置多个优化目标,并设置不同权重进行加权组合,得到全局最优的决策信息,基于多目标协同优化设计的全局损失函数表达式如下: ; 其中,为全局损失函数,为策略主损失,为风险代价惩罚项,为策略价值函数损失,为风险价值损失,为熵正则化项; 高度稳定性奖励函数如下: , 其中,为足端到机身在z方向的高度,为预定的高度,为权重系数; 触地惩罚函数如下: , 其中,为机器人基座受到的外部接触力,为双轮足机器人小腿受到的外部接触力,为权重系数; 特殊地形的奖励函数如下: , 其中,为双轮足机器人轮部是否接触台阶地形的接触条件,表示轮的编号,为双轮足机器人轮子受到的除垂直方向以外的接触力,为轮子受到的垂直方向的接触力,为机器人向上的速度,为机器人向上的加速度,为上一时刻和当前时刻双轮足机器人轮端到基座距离的变化量,为距离变化量的约束值,、和为权重系数; 风险代价惩罚项表达式如下: , 其中,为惩罚系数;每一个时间步设定一个风险代价量; 同样的,得到风险价值损失: , 其中,为风险价值损失函数;为时间步t下的风险价值函数; 根据训练结果进行策略梯度反向传播,使用基于性能反馈的自适应学习率调整方法对非对称的训练策略进行优化,从而实现双轮足机器人的自适应运动控制; 非对称的训练策略在更新过程中,利用样本估计策略梯度,使用裁剪目标函数更新策略,并引入KL散度控制策略更新的幅度; 通过KL散度动态调整学习率,对训练初期的探索阶段和训练后期的收敛阶段进行平衡,动态调整学习率表达式如下: , 其中,表示第k轮更新前的学习率,k为训练轮次,为每个epoch结束时计算的平均KL值,衡量更新前后策略分布的差异,表示对时间步t采集的数据进行期望,为缩放因子,和为KL阈值。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人山东大学,其通讯地址为:250000 山东省济南市历下区经十路17923号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。