北京理工大学马宏宾获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉北京理工大学申请的专利一种基于离线强化学习的动态环境机器人自适应控制方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115657477B 。
龙图腾网通过国家知识产权局官网在2025-08-19发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211253192.8,技术领域涉及:G05B13/04;该发明授权一种基于离线强化学习的动态环境机器人自适应控制方法是由马宏宾;张华卿;金英设计研发完成,并于2022-10-13向国家知识产权局提交的专利申请。
本一种基于离线强化学习的动态环境机器人自适应控制方法在说明书摘要公布了:本发明涉及一种基于离线强化学习的动态环境机器人自适应控制方法,属于机器人智能控制技术领域。在机器人行为策略学习阶段,提出一种历史行为重用策略提升的离线强化学习机器人控制方法,使机器人能够利用存在大量噪声的专家数据集进行行为学习,提高了学习速度和和样本利用率,在机器人的智能控制中节省了机器人与环境的交互成本。在对机器人的策略进行评估阶段,提出了一种稳定的策略评估方法,能够对机器人的行为策略进行有效评价。
本发明授权一种基于离线强化学习的动态环境机器人自适应控制方法在权利要求书中公布了:1.一种基于离线强化学习的动态环境机器人自适应控制方法,其特征在于,包括以下步骤: 定义无限时间马尔科夫过程为其中,S表示有限的连续状态空间集合,A表示有限的连续动作空间集合,表示在给定状态st∈S下,采取动作at∈A后转移到状态st+1∈S的概率; 定义π表示智能体的策略,定义πat|st表示智能体在给定状态st下采取动作at的概率; 定义φ为策略模型的参数,则πφ表示智能体的神经网络高斯策略模型,且由神经网络输出策略的均值和标准差;定义rt表示智能体在状态st时采取动作at后环境返回给智能体的奖励信号,γ表示无限时间马尔科夫过程的折扣因子,γ∈[0,1];动作值函数为:状态值函数为: 步骤1:构造专家数据集,用于机器人行为学习; 构造内容包括机器人的状态空间、动作空间和奖励函数; 针对机器人所能感知的信息,设计状态向量s;根据机器人所具有的执行机构,设计动作空间a;其中,状态空间s和动作空间a,由技术人员根据机器人的特性和工程实践进行自主定义; 同时,设计机器人行为学习过程中的奖励函数rst,at,st、at分别表示机器人在t时刻的状态和动作;根据专家策略,使机器人与环境交互,采集元组st,at,rt,st+1并将其存入数据集中,rt表示智能体在状态st时采取动作at后环境返回给智能体的奖励信号, 在最终的数据集上融入和专家策略模型交互数据量同样大小,且服从均匀分布的动作与环境交互获得数据; 步骤2:机器人从步骤1构造的含有噪声的专家数据集中学习行为策略模型,进行智能控制; 从数据集中随机采样一个批次的状态动作对st,at,利用在该状态动作对下评价函数来提升机器人行为的策略; 其中,策略模型参数的策略梯度损失函数如下式所示: 其中,表示期望,Eb表示制作好的数据集;BC函数表示对输入变量进行Box-Cox数据分布转换,BClogπφat|st表示对和状态一起从经验回放池采集的动作在当前策略模型下的对数概率做Box-Cox数据分布转换;π表示智能体的策略,πat|st表示智能体在状态st下采取动作at的概率;φ为策略模型的参数,πφ表示智能体的神经网络高斯策略模型,且由神经网络输出策略的均值和标准差;clipn·函数表示对输入变量进行剪切,输入值小于零则将其置为零,并将剪切后的值除以该批次输入数据的标准差; 在利用数据集中的状态动作对进行策略提升中,通过下式将采集到的经过tanh·压缩的动作,转换为对应的从高斯策略中采样的动作aG: 其中,atanh表示经过tanh·压缩的动作; 通过下式计算压缩动作的对数概率密度函数: 其中,α表示数据集中动作在当前策略模型中的对数概率缩放系数,α=10-6;D表示动作矢量的维度;μaG|s是对应于高斯策略的概率密度函数,是aG中的第i个元素,s表示状态; 步骤3:评估机器人的行为策略模型; 统一评价网络模型结构,包括状态输入层、动作输入层、动作扩展层、隐藏层和值函数输出层; 在预测状态值函数Vπst时,定义一个和动作at具有相同形状的元素全为零的向量ae;当检测到动作输入层的输入为零时,将动作扩展层的输出置为零,由统一的评价网络得到状态值函数:Vπst=Qst,ae; 变量θ为统一的评价网络的模型参数,当使用这个统一的评价网络模型来同时逼近状态值函数和动作值函数时,模型的策略梯度损失函数下式所示: 其中, 其中,ξ表示当前策略下动作值函数的缩放因子;表示由具有策略参数的目标评价网络预测的状态值函数,表示状态值函数Vπ的梯度损失函数,表示动作值函数Q的梯度损失函数;Qθst,at、分别表示由参数θ表示的统一的评价网络所表示的动作值函数和状态值函数; 步骤4:进行机器人训练; 机器人从数据集中采集数据,每隔一个步数,重复步骤2和步骤3;然后,机器人再次从数据集中采集数据,完成机器人行为的自主学习; 步骤5:机器人实时控制; 机器人行为自主学习完成后,机器人将当前感知的状态st输入给训练好的策略模型,策略模型给出当前状态对应的动作at,实现对机器人的控制。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京理工大学,其通讯地址为:100081 北京市海淀区中关村南大街5号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。