当前位置 : 首页 > 专利喜报 > 中国船舶集团有限公司第七〇九研究所刘俊涛获国家专利权

中国船舶集团有限公司第七〇九研究所刘俊涛获国家专利权

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

龙图腾网获悉中国船舶集团有限公司第七〇九研究所申请的专利基于最大熵投影的控制系统强化学习方法和装置获国家发明授权专利权，本发明授权专利权由国家知识产权局授予，授权公告号为：CN115526335B 。

龙图腾网通过国家知识产权局官网在2025-07-29发布的发明授权授权公告中获悉：该发明授权的专利申请号/专利号为：202211119789.3，技术领域涉及：G06N20/00；该发明授权基于最大熵投影的控制系统强化学习方法和装置是由刘俊涛;汤海南;王振杰;高子文;李昊设计研发完成，并于2022-09-15向国家知识产权局提交的专利申请。

本基于最大熵投影的控制系统强化学习方法和装置在说明书摘要公布了：本发明公开了一种基于最大熵投影的控制系统强化学习方法：初始化模型参数；重置强化学习环境；在每一时刻，智能体根据探索策略和行动策略的线性组合产生行动；在环境中执行行动，得到回报和新的环境状态，并将其加入到训练数据集中；训练并更新行动策略；在训练数据集中采样用于训练探索策略的子集，计算最大熵投影矩阵，训练并更新探策略；强化学习环境执行完后，如果学习过程收敛则结束学习，否则返回继续学习。本发明方法，通过识别最有探索价值的状态，鼓励智能体对该状态探索，提高探索效率，加快训练速度，能够减少智能体学习时间，更快的使控制系统开始执行并完成给定任务。本发明还提供了相应的基于最大熵投影的控制系统强化学习装置。

本发明授权基于最大熵投影的控制系统强化学习方法和装置在权利要求书中公布了：1.一种基于最大熵投影的控制系统强化学习方法，其特征在于，包括如下步骤： S1初始化模型参数，模型参数包括探索策略参数和行动策略参数，其中探索策略表示为了充分探索，当状态为智能体选择行动的概率，行动策略表示为了获得最大回报，当状态为智能体选择行动的概率；其中，状态为控制系统部署在多个关键位置的传感器的读数组成的向量，为控制系统中多个控制单元的控制量组成的向量； S2重置强化学习环境； S3在每一个时刻，智能体根据探索策略和行动策略的线性组合产生行动，其中，权重表示当前智能体是更倾向于探索还更倾向于获得最大回报； S4在时刻，智能体根据当前控制系统的状态，在控制系统中执行行动，得到回报，控制系统的状态变为，将加入到训练数据集中，所述反映了所述控制系统正确执行给定任务的程度； S5用训练数据集，采用强化学习方法训练并更新行动策略的参数； S6在训练数据集中采样用于训练探索策略的子集，根据训练样本子集，计算最大熵投影矩阵，训练并更新探索策略； S7检查收敛条件，如果不收敛则返回S3，否则结束。

如需购买、转让、实施、许可或投资类似专利技术，可联系本专利的申请人或专利权人中国船舶集团有限公司第七〇九研究所，其通讯地址为：430000 湖北省武汉市江夏区凤凰产业园藏龙北路1号；或者联系龙图腾网官方客服，联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

请提出您的宝贵建议，有机会获取IP积分或其他奖励

中国船舶集团有限公司第七〇九研究所刘俊涛获国家专利权

热门推荐

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务