Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 中国运载火箭技术研究院路鹰获国家专利权

中国运载火箭技术研究院路鹰获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉中国运载火箭技术研究院申请的专利面向多要素联合指控的分层多智能体增强学习方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114330651B

龙图腾网通过国家知识产权局官网在2025-08-05发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202111530472.4,技术领域涉及:G06N3/0464;该发明授权面向多要素联合指控的分层多智能体增强学习方法是由路鹰;郑本昌;惠俊鹏;黄虎;李君;张佳;任金磊;阎岩;王振亚;范佳宣;李丝然;何昳頔;李博遥;吴志壕;刘峰;范中行;张旭辉;陈海鹏;赵大海;韩特;矫慧;古月;郭晶设计研发完成,并于2021-12-14向国家知识产权局提交的专利申请。

面向多要素联合指控的分层多智能体增强学习方法在说明书摘要公布了:本发明公开了一种面向多要素联合指控的分层多智能体增强学习方法,针对强化学习的状态空间、动作空间和奖励机制进行建模,在多智能体环境下分别进行研究和设计,将Actor‑Critic网络的思想融入多智能体环境之中,形成顶层制定规划,底层执行的智能决策框架,并在模型中使用多层次的结构分别学习不同层次的策略来提高模型解决复杂问题的能力,实现了底层的并行训练,进而实现了智能体的自主行动规划。

本发明授权面向多要素联合指控的分层多智能体增强学习方法在权利要求书中公布了:1.一种面向多要素联合指控的分层多智能体增强学习方法,应用于兵棋推演环境,其特征在于,包括以下步骤: S1预设智能体推演环境; S2针对智能体推演环境,建立以状态为输入,以动作为输出的智能体强化学习模型,并利用奖励机制对智能体强化学习模型进行训练,得到智能体强化学习模型的最佳策略;输入智能体强化学习模型的状态空间包括智能体当前夺控点得分,智能体所处的地形类型,智能体观察模式,或剩余弹药数中的一种或一种以上;状态空间中的状态类型及各状态区间采用缺省验证的方式进行优化;智能体强化学习模型的动作空间包括移动,射击简单动作中的一种或一种以上;动作空间采用离散动作或归一化后的连续动作,所述连续动作归一化的方法为将连续动作映射到[-1,1]之间; 所述智能体强化学习模型采用Actor-Critic网络架构,包括一个判别层和与各智能体一一对应的决策层,所述各决策层用于根据智能体当前局部观察所得状态预测智能体的动作,并输出至智能体推演环境,得到新的总体状态并输注至判别层,判别层根据当前总体状态、新的总体状态及奖励机制对决策层进行反馈,更新决策层策略;当动作空间采用归一化后的连续动作空间时,Actor-Critic网络的判别层中设有与归一化后的连续动作空间相对应的激活函数 所述决策层包括分别与智能体一一对应的高层决策器和底层决策器;将判别层与决策层中的高层决策器视为高层决策层,将决策层中的底层决策器视为分散执行层,所述高层决策层与分散执行层之间为异步决策,高层决策层在多个时间步内执行一次决策,决定当前每个智能体所应该采取的复杂动作任务;分散执行层通过不固定的时间步采取动作空间中的简单动作,完成所述复杂动作任务; 作为决策层的Actor网络根据当前的局部观察选择一个动作action,局部观察中包含了环境和智能体自身的相关信息;判别层的Critic网络根据当前的总体状态s计算一个V值,作为对所有智能体的联合动作的反馈;Critic根据估计的V值与实际的V值之间的误差进行训练;而Actor网络根据Critic给出的评价来更新策略;使用策略梯度上升算法来更新决策层网络; Actor网络通过输入状态获得一个指定的连续动作;其建立的神经网络结构如下:神经网络的输入量是Oi,指的是该智能体的局部观察,神经网络的输出量是a,表示每一个智能体机动的情况;Actor的神经网络代表的是真正与环境互动的actor网络;在学习过程中,actor网络结合critic网络进行学习;其学习过程首先通过当前Oi获得当前估计网络预测的动作,这个估计网络代表的是经验,经验是在之前与环境的互动当中采取的action与得到的奖励和状态,作为智能体之后与环境互动的一个指标;在得到了预测动作后,与实际动作产生误差,得到梯度;使用critic网络的V值对动作的梯度来对动作进行更新;每一个智能体的动作都维护一个梯度,其参数更新的基本形式为: 其中,Δθ为动作选择策略的参数,α为学习率,pθat|st为t时刻的动作选择策略,QWs,a为该策略的评价值,满足:As,a=QWs,a-vπst,As,a为优势函数,vπst=πa1|sQπs,a1+πa2|sQπs,a2,vπst为某一状态的价值函 数等于所有动作价值函数关于动作概率的平均值;πa1|s为在某一状态可执行的某一动作的概率,Qπs,a1为这个动作发生带来的价值,πα2|s在某一状态可执行的另一动作的概率,Qπs,α2为另一动作发生带来的价值; Actor网络的神经网络构建函数,包括一个输入层,一个全连接层,一个softmax层,和一个gumbel层;然后把gumbel层的输出连接到critic;输入值为状态,输出值变为离散动作的预测; 所述判别层中还包括经验回放池,随机抽样模块和一个目标网络;其中经验回放池用于收集智能体的历史经验数据,所述历史经验数据包括状态和采取的动作;随机抽样模块用于在智能体强化学习模型训练的过程中,随机提经验回放池中的历史经验数据;目标网络作为决策层要学习的对象,根据相同状态下目标网络输出和决策层输出的差距得到梯度,并根据梯度更新决策层; 将NatureDQN加入经验池,真实Q值使用两个target网络共同计算;将收集到的历史经验存放到记忆库中,在更新的时候取一个批的数据来计算均值;采用滑动平均的方法更新目标网络的参数,DQN架构的更新方式如下: actorθ中动作对参数的梯度为dadθ,critic中Q对动作的梯度dqda,最后得到的Q值对actorθ的梯度公式为-dqda*dadθ;式中δt为TD-error,公式中rt代表奖励值,为目标价值函数值,Qωst,at为实际的价值函数值;ωt、θt均为神经网络的参数分别指实际与环境互动的智能体网络与经验池中以往“经验”的神经网络;与分别对应各自网络的梯度值;αθ、αω为折扣率。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中国运载火箭技术研究院,其通讯地址为:100076 北京市丰台区南大红门路1号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。