Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 中国科学院自动化研究所朱圆恒获国家专利权

中国科学院自动化研究所朱圆恒获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉中国科学院自动化研究所申请的专利基于视觉表征的单智能体强化学习模型的训练方法、装置、电子设备、存储介质和计算机程序产品获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119580029B

龙图腾网通过国家知识产权局官网在2025-07-22发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411601987.2,技术领域涉及:G06V10/774;该发明授权基于视觉表征的单智能体强化学习模型的训练方法、装置、电子设备、存储介质和计算机程序产品是由朱圆恒;刘民颂;赵冬斌设计研发完成,并于2024-11-11向国家知识产权局提交的专利申请。

基于视觉表征的单智能体强化学习模型的训练方法、装置、电子设备、存储介质和计算机程序产品在说明书摘要公布了:本公开涉及一种基于视觉表征的单智能体强化学习模型的训练方法、装置、电子设备、存储介质和计算机程序产品,单智能体强化学习模型单智能体强化学习模型包括在线状态编码器、动作编码器、强化学习网络和辅助任务网络,辅助任务网络包括状态预测模型,根据目标智能体当前时间段基于针对目标智能体的观测图像而得到的状态信息和动作信息,以及当前时间段的奖赏信息,通过辅助任务网络从视觉表征的角度出发,学习目标智能体的状态表征和动作表征,通过强化学习网络为目标智能体选择最佳决策动作,并且,充分利用强化学习中时间段的时序信息,可以实现单智能体在具有挑战的以图像作为状态输入的复杂连续控制任务中的性能和样本效率提升。

本发明授权基于视觉表征的单智能体强化学习模型的训练方法、装置、电子设备、存储介质和计算机程序产品在权利要求书中公布了:1.一种基于视觉表征的单智能体强化学习模型的训练方法,其特征在于,所述基于视觉表征的单智能体强化学习模型包括在线状态编码器、动作编码器、强化学习网络和辅助任务网络,所述辅助任务网络包括状态预测模型,所述基于视觉表征的单智能体强化学习模型的训练方法包括: 获取目标智能体当前时间段的状态信息、动作信息和奖赏信息,其中,所述当前时间段由包含当前时刻在内的预设多个连续的时刻组成,所述状态信息和所述动作信息是基于针对所述目标智能体的观测图像而得到的; 将所述状态信息输入到所述在线状态编码器,得到状态特征; 将所述动作信息输入到所述动作编码器,得到动作特征; 将所述状态特征、所述动作特征和所述奖赏信息输入到所述状态预测模型,得到所述目标智能体下一时间段的状态预测特征,其中,所述下一时间段由包含下一时刻在内的预设多个连续的时刻组成; 基于所述状态预测特征和对应真实值之间的差异,计算状态预测损失; 将所述状态特征和所述动作特征输入到所述强化学习网络,以计算强化学习损失; 基于所述强化学习损失和所述状态预测损失,对所述基于视觉表征的单智能体强化学习模型进行训练; 其中,所述辅助任务网络还包括动作预测模型; 其中,所述基于视觉表征的单智能体强化学习模型的训练方法还包括: 获取所述目标智能体当前时刻的状态信息和下一时刻的状态信息; 将所述当前时刻的状态信息和所述下一时刻的状态信息分别输入到所述在线状态编码器,得到当前时刻的状态特征和下一时刻的状态特征; 将所述当前时刻的状态特征和所述下一时刻的状态特征输入到所述动作预测模型,得到当前时刻的动作预测特征; 基于所述动作预测特征和对应真实值之间的差异,计算动作预测损失; 其中,所述基于所述强化学习损失和所述状态预测损失,对所述基于视觉表征的单智能体强化学习模型进行训练,包括: 基于所述强化学习损失、所述状态预测损失和所述动作预测损失,对所述基于视觉表征的单智能体强化学习模型进行训练。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中国科学院自动化研究所,其通讯地址为:100190 北京市海淀区中关村东路95号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。