当前位置 : 首页 > 专利喜报 > 北京理工大学孙健获国家专利权

北京理工大学孙健获国家专利权

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

龙图腾网获悉北京理工大学申请的专利一种基于离散-连续异构Q网络的强化学习连续动作控制方法获国家发明授权专利权，本发明授权专利权由国家知识产权局授予，授权公告号为：CN116224794B 。

龙图腾网通过国家知识产权局官网在2026-01-30发布的发明授权授权公告中获悉：该发明授权的专利申请号/专利号为：202310204847.0，技术领域涉及：G05B13/04；该发明授权一种基于离散-连续异构Q网络的强化学习连续动作控制方法是由孙健;张野晨;王钢;陈杰设计研发完成，并于2023-03-03向国家知识产权局提交的专利申请。

本一种基于离散-连续异构Q网络的强化学习连续动作控制方法在说明书摘要公布了：本发明涉及一种基于离散‑连续异构Q网络的强化学习连续动作控制方法，属于强化学习技术领域，尤其涉及基于值函数的强化学控制方法。本发明所设计的基于连续‑异构Q网络架构的强化学习方法充分利用了该架构的特点，在高效利用经验样本进行离线更新的同时，采用了一种∈‑高斯复合探索方法提升强化学习的探索效率，相比于常用的策略‑评价结构强化学习方法，有着更快的收敛速度以及更加稳定的训练过程，显著提升强化学习控制器应用于无人设备的控制效果。

本发明授权一种基于离散-连续异构Q网络的强化学习连续动作控制方法在权利要求书中公布了：1.一种基于离散-连续异构Q网络的强化学习连续动作控制方法，其特征在于该方法的步骤包括：步骤1，构造连续Q函数强化学习模型和离散Q函数强化学习模型，并根据构造的连续Q函数强化学习模型和离散Q函数强化学习模型之间的耦合关系，构建连续-离散Q函数强化学习模型；步骤2，根据步骤1构建的连续-离散Q函数强化学习模型，构建离散-连续异构Q网络强化学习的神经网络架构；步骤3，基于时序差分与监督学习，训练步骤2构建的神经网络架构，得到收敛的离散Q网络模块及其对应的分解离散Q函数网络；步骤4，将步骤3训练后的分解离散Q函数作为控制器，在每个时间步选取最大Q函数值所对应的动作，并应用于被控对象，完成基于离散-连续异构Q网络的强化学习连续动作控制方法；所述的步骤1中，连续Q函数强化学习模型为一个马尔可夫决策过程模型，即五元组，其中，S为状态空间，状态转移概率，为奖励值函数，γ为折扣率常数；所述包含所有可能的状态，为时间；代表所有可能的连续动作，由每个动作维度的动作共同组成，其中m代表维度；所述代表在下转移到下一状态转移概率所述，的函数，即所述连续Q函数强化学习模型的目标于寻找一个最优的确定性策略，，该最优的确定性策略包括每个维度上的最优确定性分策略，使得整个连续Q函数强化学习模型能够获得最大的期望回报值，即奖励值函数在未来的累计值，从而最优化强化学习控制器的控制表现，在动作下，连续Q函数强化学习模型能够获得的期望累计回报值又称为状态-行为值或Q函数值，通过以下公式计算：为获得最高的累计回报值，最优化被控对象的表现，连续Q函数强化学习模型的最优确定性策略与连续Q函数为以下的形式：。

如需购买、转让、实施、许可或投资类似专利技术，可联系本专利的申请人或专利权人北京理工大学，其通讯地址为：100081 北京市海淀区中关村南大街5号；或者联系龙图腾网官方客服，联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

请提出您的宝贵建议，有机会获取IP积分或其他奖励

北京理工大学孙健获国家专利权

热门推荐

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务