华为技术有限公司鲍里斯拉夫·马夫林获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉华为技术有限公司申请的专利用于学习可重用选项以在任务之间传递知识的系统和方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115917564B 。
龙图腾网通过国家知识产权局官网在2025-09-16发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202080101983.1,技术领域涉及:G06N20/00;该发明授权用于学习可重用选项以在任务之间传递知识的系统和方法是由鲍里斯拉夫·马夫林;丹尼尔·马克·格拉韦斯设计研发完成,并于2020-11-18向国家知识产权局提交的专利申请。
本用于学习可重用选项以在任务之间传递知识的系统和方法在说明书摘要公布了:一种机器人,包括RL智能体,所述RL智能体用于学习策略,以最大化任务的累积奖励,以确定彼此最小相关的一个或多个特征。然后,所述特征被用作伪奖励,称为特征奖励,其中,每个特征奖励对应于选项策略或技能,所述RL智能体学习所述选项策略或技能以最大化所述特征奖励。在一个示例中,所述RL智能体用于选择最相关的特征来学习相应选项策略。所述RL智能体用于对于所述选择的特征中的每个特征,学习最大化所述相应特征奖励的所述相应选项策略。通过使用所述学习到的选项策略,所述RL智能体用于学习新第二任务的新第二策略,所述新第二策略可以从所述RL智能体可用的所述学习到的选项策略或动作中的任何学习到的选项策略或动作中选择。
本发明授权用于学习可重用选项以在任务之间传递知识的系统和方法在权利要求书中公布了:1.一种机器人,其特征在于,包括: 存储器; 处理单元,用于执行存储在所述存储器中的智能体的指令,以: 学习第一策略,以最大化环境中的第一任务的累积奖励,所述第一策略是使用强化学习算法和在环境中收集的第一转换元组学习的,其中,每个第一转换元组包括状态、动作、在执行所述动作之后所述第一策略的奖励; 从神经网络中提取特征网络; 计算所述特征网络输出的每个特征的方差; 基于所述计算出的方差选择所述特征中的至少一个特征; 对于每个选择的特征,基于在所述环境中收集的第二转换元组学习选项策略,以最大化所述选择的特征的累积特征奖励,并将针对所述选择的特征的所述学习到的选项策略存储在增强动作空间中,其中,每个第二转换元组包括状态、动作、特征奖励和下一个状态; 学习第二策略,以最大化第二任务的第二累积奖励,所述第二策略是通过在所述增强动作空间中选择所述学习的选项策略中的一个学习的选项策略并使用强化学习算法和在环境中收集的第三转换元组学习的,其中,每个第三转换元组包括状态、所述选择的选项策略、在执行由所述选择的学习到的选项策略生成的所述动作之后所述选择的学习到的选项策略的奖励,以及下一个状态。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人华为技术有限公司,其通讯地址为:518129 广东省深圳市龙岗区坂田华为总部办公楼;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。