广东工业大学谢志华获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉广东工业大学申请的专利基于动作分支架构价值优势学习的机械臂抓取方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119283036B 。
龙图腾网通过国家知识产权局官网在2026-01-30发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411714365.0,技术领域涉及:B25J9/16;该发明授权基于动作分支架构价值优势学习的机械臂抓取方法及系统是由谢志华;刘德荣;王永华;赵博设计研发完成,并于2024-11-27向国家知识产权局提交的专利申请。
本基于动作分支架构价值优势学习的机械臂抓取方法及系统在说明书摘要公布了:本发明公开了一种基于动作分支架构价值优势学习的机械臂抓取方法及系统,该方法包括:将机械臂抓取任务建模为马尔可夫决策问题;基于动作空间,引入VA学习算法,搭建动作分支结构的主网络和目标网络;基于贪婪策略,对所述主网络和目标网络进行训练,并累积经验回放池;根据实际场景进行设置,结合贪婪策略和所述经验回放池,完成目标抓取任务。该系统包括:建模模块、网络构建模块、机械臂训练模块。通过使用本发明,使用基于动作分支架构的深度学习算法探索确定性策略,能够更好的处理机械臂的离散状态动作空间,进而提高控制性能。本发明可广泛应用于机械臂控制领域。
本发明授权基于动作分支架构价值优势学习的机械臂抓取方法及系统在权利要求书中公布了:1.一种基于动作分支架构价值优势学习的机械臂抓取方法,其特征在于,包括以下步骤: 将机械臂抓取任务建模为马尔可夫决策问题; 基于动作空间,引入VA学习算法,搭建动作分支结构的主网络和目标网络; 基于贪婪策略,对所述主网络和目标网络进行训练,并累积经验回放池; 根据实际场景进行设置,结合贪婪策略和所述经验回放池,完成目标抓取任务; 所述将机械臂抓取任务建模为马尔可夫决策问题这一步骤,其具体包括: 根据机械臂抓取任务的任务特点,定义四元组具体为:; 其中,为状态空间,表示智能体所观测的信息集合;为动作空间,表示智能体所执行的操作集合;为奖励函数,用于评估智能体在执行动作的效果;γ为折扣因子; 奖励函数公式表示如下: ; 所述基于动作空间,引入VA学习算法,搭建动作分支结构的主网络和目标网络这一步骤,其具体包括: 根据动作空间的维度,设定对应数量的动作分支,每个动作分支均包括主网络和目标网络; 每个动作分支的Q值计算公式如下: 其中,所述表示状态向量,表示第个动作分支采取的动作,表示状态价值;表示在状态s下,动作的优势函数;表示动作维度d下的任意一个子动作;表示动作维度d下所有可能子动作的集合; 每个动作分支的损失函数具体表示如下: 其中,为动作分支数量,表示权重系数,代表经验池大小,表示非均匀概率补偿系数,表示在下,动作维度d的状态值函数的估计,表示在下,动作维度d的状态值函数的目标值,表示在状态和动作下,动作维度d的动作优势函数的估计,表示在状态和动作下,动作维度d的动作优势函数的目标值。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人广东工业大学,其通讯地址为:510006 广东省广州市番禺区小谷围街道广东工业大学;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励