南京大学章宗长获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉南京大学申请的专利基于模型不确定性与行为先验的控制策略离线训练方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115972211B 。
龙图腾网通过国家知识产权局官网在2025-08-05发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310064893.5,技术领域涉及:B25J9/16;该发明授权基于模型不确定性与行为先验的控制策略离线训练方法是由章宗长;俞扬;周志华;周韧哲设计研发完成,并于2023-02-06向国家知识产权局提交的专利申请。
本基于模型不确定性与行为先验的控制策略离线训练方法在说明书摘要公布了:本发明公开一种基于模型不确定性和行为先验的控制策略离线训练方法,通过在机械臂操作离线数据上训练集成动力学模型来构建对机械臂数据样本的不确定性度量,并采用变分自编码器来拟合收集该机械臂离线数据的行为先验策略,在加权贝尔曼更新的框架下仅使用机械臂离线数据来训练机械臂的控制策略。本发明能够使机械臂控制策略在离线训练的过程中有选择性地利用机械臂的离线数据集,减小不可信的机械臂数据样本对策略训练的影响,同时使可信的机械臂数据样本仍然能对策略训练起到正向作用,能够使得机械臂控制策略的离线学习过程更加稳定并提升机械臂控制策略的性能。
本发明授权基于模型不确定性与行为先验的控制策略离线训练方法在权利要求书中公布了:1.一种基于模型不确定性与行为先验的控制策略离线训练方法,其特征在于,包括如下步骤: 步骤1:在机械臂装配操作数据集上训练集成动力学模型,所得模型模拟真实的机械臂操作环境; 步骤2:在机械臂装配操作数据集上训练变分自编码器,所得行为先验模型模拟采集这些数据的行为策略; 步骤3:开始训练基于行为者-评论家的策略网络,所述基于行为者-评论家的策略网络为机械臂控制策略,控制策略与集成动力学模型交互生成机械臂的操作样本,存入模型数据集中; 步骤4:从混合数据集中采样小批量的机械臂操作样本,计算样本的模型不确定性与解码器重构概率,并计算样本的贝尔曼更新权重; 步骤5:使用采样的小批量机械臂操作样本来进行加权贝尔曼更新训练值函数、目标值函数与控制策略; 步骤6:重复步骤3-5,控制策略训练达到收敛后,完成训练过程; 所述集成动力学模型由N个架构相同、初始化不同的全连接神经网络表示,每个神经网络用高斯分布建模;每个机械臂的状态-动作对通过集成动力学模型来估计不确定性; 所述行为先验模型使用变分自编码器建模,旨在对采集机械臂操作数据的行为策略进行建模;由两部分组成,一部分是编码器,将机械臂的状态-动作对映射到隐空间中;另一部分是解码器,将隐空间向量映射到状态-动作空间,从隐空间向量中重构之前输入的机械臂状态-动作对; 所述基于行为者-评论家的策略网络通过机械臂的历史操作数据来离线学习机械臂控制策略;机械臂控制策略采用行为者-评论家模式来构建,行为者是一个随机策略,由高斯分布建模,每次在机械臂操作环境下执行策略时从高斯分布中采样动作;评论家是值函数;策略与值函数都由多层全连接神经网络构成; 所述机械臂控制策略的值函数训练过程采用加权贝尔曼更新,基于下最小化损失函数进行训练。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人南京大学,其通讯地址为:210023 江苏省南京市栖霞区仙林大道163号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。