江苏科技大学王卫东获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉江苏科技大学申请的专利一种基于改进多线程PPO强化学习的机械臂抓取方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119704196B 。
龙图腾网通过国家知识产权局官网在2025-11-28发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510037188.5,技术领域涉及:B25J9/16;该发明授权一种基于改进多线程PPO强化学习的机械臂抓取方法及系统是由王卫东;毕爱卿设计研发完成,并于2025-01-09向国家知识产权局提交的专利申请。
本一种基于改进多线程PPO强化学习的机械臂抓取方法及系统在说明书摘要公布了:本发明公开了一种基于改进多线程PPO强化学习的机械臂抓取方法及系统,方法包括:初始化环境状态;多个工作子线程开始并行工作,获取机械臂的初始状态信息,并将其输入到Actor策略网络,Actor策略网络采用改进的PPO强化学习算法进行数据收集;将收集的数据放入到经验池中,计算出所有的优势值;对优势值进行正则化处理,同时对奖励进行缩放处理;对Actor策略网络和Critic评价网络进行更新;根据Actor策略网络输出的最新动作指令,控制机械臂的关节运动和夹爪动作。本发明通过改进奖励函数、优势值正则化和奖励缩放方法改进PPO算法,并利用多线程并行计算提高算法的训练效率和机械臂的抓取性能,使机械臂能够在复杂环境下快速、准确地抓取目标物体。
本发明授权一种基于改进多线程PPO强化学习的机械臂抓取方法及系统在权利要求书中公布了:1.一种基于改进多线程PPO强化学习的机械臂抓取方法,其特征在于,包括如下步骤: S1:初始化环境状态,包括工作子线程的数量、Actor策略网络和Critic评价网络; S2:多个工作子线程开始并行工作,获取机械臂的初始状态信息,并将其输入到Actor策略网络,Actor策略网络采用改进的PPO强化学习算法进行数据收集; S3:将收集的数据放入到经验池中,采用广义优势估计GAE算法计算出所有的优势值; S4:对优势值进行正则化处理,同时对奖励进行缩放处理; S5:根据正则化后的优势值和缩放后的奖励,对Actor策略网络和Critic评价网络进行更新; S6:根据Actor策略网络输出的最新动作指令,控制机械臂的关节运动和夹爪动作; 步骤S4中正则化处理包括: 计算经验池中所有优势值的均值和标准差; 根据均值和标准差对每个优势值进行正则化处理,公式如下: 其中是原始优势值,是经验池内所有优势值的均值,是经验池内所有优势值的标准差,是防止分母为零的小常数,是正则化之后的优势值; 步骤S4中缩放处理包括: A1:设计奖励函数: ; ; 其中,是折扣因子; 计算机械臂夹爪中心与目标物体中心在三维空间中的欧几里得距离;当距离较远时给予较小的奖励,随着距离逐渐减小,奖励逐渐增加;使用一个简单的非线性函数来实现这种关系;其中是一个缩放系数,决定了距离对奖励的影响程度,是一个预先设定的最大距离阈值;当时,;当时,;这样可以鼓励机械臂逐渐靠近目标物体;是指示函数,当成功抓取时,;当抓取失败时,; A2:滚动计算一个奖励的折扣总和,公式为,其中是每一步计算的累计奖励,是折扣因子,是当前步的奖励; 动态计算每一步奖励的标准差; 用标准差缩放得到奖励,公式为,其中是缩放后的奖励。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人江苏科技大学,其通讯地址为:212000 江苏省镇江市梦溪路2号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励