渊慧科技有限公司亚瑟·克莱蒙特·格斯获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉渊慧科技有限公司申请的专利使用后见之明建模来训练动作选择神经网络获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114467092B 。
龙图腾网通过国家知识产权局官网在2025-09-16发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202080066633.6,技术领域涉及:G06N3/092;该发明授权使用后见之明建模来训练动作选择神经网络是由亚瑟·克莱蒙特·格斯;法比奥·维奥拉;塞奥法尼·纪尧姆·韦伯;拉尔斯·比辛;尼古拉斯·曼弗雷德·奥托·黑斯设计研发完成,并于2020-09-23向国家知识产权局提交的专利申请。
本使用后见之明建模来训练动作选择神经网络在说明书摘要公布了:一种强化学习方法和系统,所述强化学习方法和系统选择要由与环境交互的强化学习智能体执行的动作。因果模型由后见之明模型神经网络实施并且使用后见之明,即使用未来环境状态轨迹进行训练。由于所述方法和系统在选择动作时无法访问这种未来信息,因此使用所述后见之明模型神经网络来训练模型神经网络,所述模型神经网络以来自当前观测的数据为条件,所述模型神经网络学习预测所述后见之明模型神经网络的输出。
本发明授权使用后见之明建模来训练动作选择神经网络在权利要求书中公布了:1.一种强化学习的计算机实施的方法,包括: 训练动作选择神经网络系统,以选择要由在环境中执行任务的智能体来执行的动作, 其中,所述环境是真实世界环境或所述真实世界环境的模拟,并且所述智能体包括与所述真实世界环境交互的机械智能体,或与所述真实世界环境的所述模拟交互的所述机械智能体的模拟,或用于所述机械智能体的控制系统,或者 所述环境是真实世界制造工厂或服务设施,并且所述智能体包括控制所述制造工厂或服务设施中的动作或操作的机械或电子智能体,或者 所述环境是更新能源工厂,并且所述智能体包括控制所述更新能源工厂中的动作或操作的机械或电子智能体,或者 所述环境是患者诊断环境,并且所述智能体包括用于建议治疗的计算机系统,或者 所述环境是化学合成或蛋白质折叠环境,并且所述智能体包括用于确定如何折叠蛋白质链或合成化学物质的计算机系统,或者 所述环境是集成电路路由环境,并且所述智能体包括执行用于对所述集成电路的互连线进行路由的路由任务的静态或移动软件智能体,或者 所述环境是数据包通信网络环境,并且所述智能体包括在所述数据包通信网络上路由数据包的路由器,或者 所述环境是计算环境,并且所述智能体包括管理计算任务跨计算资源的分布的软件智能体,或者 所述环境是互联网或移动通信环境,并且所述智能体包括管理个性化推荐的软件智能体, 其中,所述动作选择神经网络系统被配置成从i表征所述环境的当前状态的观测、以及ii模型神经网络的输出接收输入数据,并且根据动作选择神经网络系统参数处理所述输入数据,以生成用于选择要由所述智能体执行的所述动作的动作选择输出;以及 其中,所述模型神经网络被配置成接收从表征所述环境的当前状态的所述观测得到的输入,并且所述模型神经网络的输出表征预测的状态轨迹,所述预测的状态轨迹包括从所述当前状态开始的所述环境的一系列k个预测的未来状态; 其中,所述方法还包括: 通过以下操作来训练具有表征状态轨迹的输出的后见之明模型神经网络,所述状态轨迹包括从时间步t处的所述环境的状态开始的所述环境的一系列k个状态:处理来自表征在所述时间步t处和在一系列k个后续时间步处的所述环境的状态的一个或多个观测的数据、以及使用所述时间步t的训练目标调整所述后见之明模型神经网络的参数;以及 训练所述模型神经网络的输出,以近似所述后见之明模型神经网络的输出。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人渊慧科技有限公司,其通讯地址为:英国伦敦;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。