华南理工大学;佛山纽欣肯智能科技有限公司肖睿宏获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉华南理工大学;佛山纽欣肯智能科技有限公司申请的专利基于示教奖励状态机与残差强化学习的机器人装配学习方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN117863152B 。
龙图腾网通过国家知识产权局官网在2025-10-03发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202410096459.X,技术领域涉及:B25J9/00;该发明授权基于示教奖励状态机与残差强化学习的机器人装配学习方法是由肖睿宏;占宏;杨辰光设计研发完成,并于2024-01-24向国家知识产权局提交的专利申请。
本基于示教奖励状态机与残差强化学习的机器人装配学习方法在说明书摘要公布了:本发明提供了一种基于示教奖励状态机与残差强化学习的机器人装配方法,属于机器人与智能制造领域,包括如下步骤:搭建机器人装配的硬件实物平台和强化学习训练的虚拟仿真环境;在实物平台通过拖拽示教采集装配过程中装配对象的6D位姿示教轨迹;抽象表示示教中的关键信息和状态迁移,根据状态机构建奖励函数以提高学习效率;建立基于导纳控制的残差强化学习方法,通过残差强化学习来优化导纳控制装配策略,提高机器人装配的安全性。本发明结合了示教奖励状态机和残差强化学习的优势,既能够通过示教快速引导机器人完成任务,又能够通过强化学习实现机器人在复杂环境中的自主学习和适应性提升,同时通过导纳控制提高了系统的安全性。
本发明授权基于示教奖励状态机与残差强化学习的机器人装配学习方法在权利要求书中公布了:1.基于示教奖励状态机与残差强化学习的机器人装配方法,其特征在于,包括如下步骤: 步骤S0、搭建机器人装配的硬件实物平台和强化学习训练的虚拟仿真环境; 步骤S1、在实物平台通过拖拽示教采集装配过程中装配对象的6D位姿示教轨迹; 步骤S2、抽象表示示教中的关键信息和状态迁移,根据状态机构建奖励函数以提高学习效率;所述S2包括以下步骤: 步骤S21、对采集到的轨迹数据进行清理,检测和清除异常值和离群点,通过均值滤波提高数据的平滑性和稳定性,再通过降采样来减少数据点的数量; 步骤S22、对处理好的轨迹进行分割和关键信息提取,将示教者演示的连续动作分解为独立的子任务,利用聚类算法,将示教者的动作分组为具有相似运动特征的簇,每个簇对应一个子任务,定义状态机; 步骤S23、对每个状态的奖励函数进行设计,当状态发生迁移时,根据其对目标的实现定义好奖励或惩罚,促使机器人在状态发生迁移后尝试新的动作,定义好状态机的奖励函数; 所述S22包括以下步骤: 步骤S221、根据装配的起始和终点位置,确定状态机的起始和终止状态,根据分段的轨迹定义状态机的中间状态,通过机器人本体信息和环境信息来定义状态; 步骤S222、通过机器人的动作空间和外部状态响应开定义迁移条件,包括轴孔装配的状态:靠近、搜孔和组装; 步骤S223、机器人执行示教装配动作,测试奖励机确保它能够实现预期的系统行为; 所述S23包括以下步骤: S231、奖励由示教定义的状态机确定,给每种状态都定义了一个奖励,当状态机发生成功的迁移之后,奖励机会根据迁移的价值来生成奖励,驱动机器人朝着最终成功的状态进行学习; S232、上述奖励中一类为稠密奖励,即在某一状态机下设定的与距离成反比的正向奖励;另一类为稀疏奖励,与状态机迁移有关,当状态机正向迁移时给定奖励,状态机反向迁移是给定惩罚; 步骤S3、建立基于导纳控制的残差强化学习方法,通过残差强化学习来优化导纳控制装配策略,提高机器人装配的安全性。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人华南理工大学;佛山纽欣肯智能科技有限公司,其通讯地址为:510640 广东省广州市天河区五山路381号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励