Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 电子科技大学杨智友获国家专利权

电子科技大学杨智友获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉电子科技大学申请的专利一种基于保守模型强化学习的机器人控制方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119260713B

龙图腾网通过国家知识产权局官网在2025-07-22发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411416100.2,技术领域涉及:B25J9/16;该发明授权一种基于保守模型强化学习的机器人控制方法是由杨智友;屈鸿;胡旺;章语设计研发完成,并于2024-10-11向国家知识产权局提交的专利申请。

一种基于保守模型强化学习的机器人控制方法在说明书摘要公布了:该发明公开了一种基于保守模型强化学习的机器人控制方法,涉及机器学习技术领域。本发明基于保守模型强化学习的机器人控制方法,通过在每个模型学习步骤中,从集成概率模型中随机选择具有保守近似的估计模型。它以概率估计模型的集合形式出现,但包含了惩罚高估或过度乐观预测的机制。这保证了基于模型强化学习算法在保守性和泛化性之间的平衡,进而解决基于模型强化学习中模拟环境产生多步模型模拟样本严重偏离真实环境数据的问题。

本发明授权一种基于保守模型强化学习的机器人控制方法在权利要求书中公布了:1.一种基于保守模型强化学习的机器人控制方法,其特征在于,该方法包括: 步骤1:构建多个真实环境估计模型、多个Q值、一个控制策略网络、一个真实数据缓冲池和一个模拟数据缓冲池; 步骤2:根据控制策略网络机器人与真实环境进行交互时,在执行动作后进行状态转移时,将状态转移的交互轨迹存储到真实数据缓冲池; 步骤3:通过所述多个真实环境估计模型构建保守环境估计模型的优化目标; 从多个真实环境估计模型中随机选择2个真实环境估计模型和用于计算被选真实环境估计模型均值的平均值μz和方差的平均值σz,即下式: 其中,和表示第i个估计模型的均值和对角协方差,s表示当前状态,a表示在状态s下执行得动作,根据计算的μz和σz构建被选真实环境估计模型的上界μu和下界μl: μu=μz+σz μl=μz-σz 然后,让被选真实环境估计模型的上界μu向下界μl靠近: 式中μl在优化时不传播梯度信息; 根据下式获取所述保守环境估计模型的优化目标 式中,表示从真实缓冲区中采样交互轨迹样本的期望值,表示使用最大似然函数优化估计模型的损失,st+1表示真实环境中的下一时刻状态,st+1中包含了回报值r,η为可调节超参数,表示估计模型协方差的平方值; 步骤4:使用真实数据缓冲池中的数据对保守环境估计模型进行优化; 步骤5:通过所述控制策略网络与保守环境估计模型进行多步交互轨迹预测生成预测数据,并将所得数据存入模拟数据缓冲池; 步骤6:通过所述模拟数据缓冲池中的数据对Q值和控制策略网络进行优化; 步骤7:持续迭代优化保守环境估计模型、Q值和控制策略网络直至当前控制策略网络性能达到预期要求; 步骤8:根据最终的控制策略网络进行机器人运动的控制。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人电子科技大学,其通讯地址为:611731 四川省成都市高新区(西区)西源大道2006号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由AI智能生成
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。