当前位置 : 首页 > 专利喜报 > 上海交通大学张伟楠获国家专利权

上海交通大学张伟楠获国家专利权

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

龙图腾网获悉上海交通大学申请的专利一种可迁移的基于示教和策略解耦的行为决策和状态规划学习方法获国家发明授权专利权，本发明授权专利权由国家知识产权局授予，授权公告号为：CN115222043B 。

龙图腾网通过国家知识产权局官网在2026-01-27发布的发明授权授权公告中获悉：该发明授权的专利申请号/专利号为：202210826945.3，技术领域涉及：G06N3/094；该发明授权一种可迁移的基于示教和策略解耦的行为决策和状态规划学习方法是由张伟楠;刘明桓;竺正邦设计研发完成，并于2022-07-13向国家知识产权局提交的专利申请。

本一种可迁移的基于示教和策略解耦的行为决策和状态规划学习方法在说明书摘要公布了：本发明公开了一种可迁移的基于示教和策略解耦的行为决策和状态规划学习算法，涉及强化学习领域，包括决策模块，规划模块和决策规划判别模块，所述规划模块基于环境的状态预测目标状态，并交由所述决策模块执行，利用监督学习；所述决策模块又称为逆环境模块，基于环境的状态和所述规划模块预测的目标状态输出决策信号，即动作；所述决策规划判别模块基于环境中采样的状态数据与专家示教数据进行对抗学习，给出用于所述规划模块学习的奖励信号。本发明提高了泛化性。

本发明授权一种可迁移的基于示教和策略解耦的行为决策和状态规划学习方法在权利要求书中公布了：1.一种可迁移的基于示教和策略解耦的行为决策和状态规划学习方法，其特征在于，该方法主要用于解决OpenAI的开源库Gym中的Mujoco机器人控制问题，首先定义状态是机器人各部位的位置和速度，动作是施加在各部位上的力，目标是保证机器人不摔倒的前提下使得机器人前进的距离尽可能地长，同时使得用于控制的力尽可能地小，该方法包括决策模块，规划模块和决策规划判别模块，其中所述规划模块基于环境的状态预测目标状态，并交由所述决策模块执行，利用监督学习；所述决策模块又称为逆环境模块，基于环境的状态和所述规划模块预测的目标状态输出决策信号，即动作；所述决策规划判别模块基于环境中采样的状态数据与专家示教数据进行对抗学习，给出用于所述规划模块学习的奖励信号；所述策略解耦分为运动规划和行为决策模块；所述学习方法包括学习流程和迁徙流程；所述学习流程包括以下步骤：步骤a1：获取初始数据；步骤a2：根据当前环境状态，所述规划模块输出规划的预测状态，并交由所述决策模块输出决策信号，通过此方式与环境进行固定时间步的交互得到状态序列，并构成状态动作行为序列对放入经验回放池；步骤a3：从所述经验回放池中采样数据学习所述决策模块，基于所述状态动作行为序列对预测决策信号，利用所述经验回放池中的数据更新模块参数；步骤a4：从所述示教数据和所述经验回放池中各采集所述状态动作行为序列对训练判别模块，根据判别误差更新模块参数；步骤a5：从经验回放池中采样数据学习规划模块，共同输入到判别模块中，由所述决策规划判别模块判断输入的所述状态动作行为序列对是否来自于所述示教数据，并给出相应的反馈信号作为奖励；步骤a6：所述规划模块根据所述反馈信号奖励更新模块参数；步骤a7：若所述规划模块及所述决策模块收敛，则结束方法，若否，则进入步骤a2。

如需购买、转让、实施、许可或投资类似专利技术，可联系本专利的申请人或专利权人上海交通大学，其通讯地址为：200240 上海市闵行区东川路800号；或者联系龙图腾网官方客服，联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

请提出您的宝贵建议，有机会获取IP积分或其他奖励

上海交通大学张伟楠获国家专利权

热门推荐

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务