Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 积分商城 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 浙江大学王红梅获国家专利权

浙江大学王红梅获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉浙江大学申请的专利强化学习方法、动作生成系统、计算机设备和存储介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119358629B

龙图腾网通过国家知识产权局官网在2025-12-09发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411346527.X,技术领域涉及:G06N3/092;该发明授权强化学习方法、动作生成系统、计算机设备和存储介质是由王红梅;白文松;张超;赵涵斌;钱徽设计研发完成,并于2024-09-25向国家知识产权局提交的专利申请。

强化学习方法、动作生成系统、计算机设备和存储介质在说明书摘要公布了:本申请涉及一种强化学习方法、动作生成系统、计算机设备和存储介质。所述方法包括:对预设时间范围内的历史状态和动作信息进行编码,得到编码轨迹信息;基于所述编码轨迹信息和预设的深度学习网络,生成目标动作;基于所述目标动作以及与所述目标动作对应的当前状态,确定所述目标动作的预测回报;基于所述当前状态下的动作概率分布,确定探索能力调整值;基于所述预测回报和探索能力调整值,对所述深度学习网络的参数进行调整。采用本方法能够达到提高策略生成的鲁棒性的效果。

本发明授权强化学习方法、动作生成系统、计算机设备和存储介质在权利要求书中公布了:1.一种强化学习方法,其特征在于,应用于机器人的动作生成系统,所述强化学习方法包括: 对预设时间范围内的历史状态和动作信息进行编码,得到编码轨迹信息;所述动作信息包括调整至指定方向、向指定方向移动指定步数; 基于所述编码轨迹信息和预设的深度学习网络,生成目标动作; 基于所述目标动作以及与所述目标动作对应的当前状态,确定所述目标动作的预测回报;所述基于所述目标动作以及与所述目标动作对应的当前状态,确定所述目标动作的预测回报包括:获取所述目标动作对应的当前状态;基于所述目标动作和当前状态,计算所述目标动作的未来回报分布;将从均匀分布中随机采样至少一个样本映射至所述未来回报分布中,得到至少一个分位值;所述未来回报分布是基于隐式分位网络建模得到的;所述均匀分布为动作空间中的均匀分布;所述动作空间是从基础分布中采样噪声,将基础分布转换能得到的;基于所述分位值,确定所述目标动作的预测回报; 基于所述当前状态下的动作概率分布,确定探索能力调整值;所述当前状态下的动作概率分布是深度学习网络基于编码轨迹信息得到的多个待选动作的概率分布;所述基于所述当前状态下的动作概率分布,确定探索能力调整值包括:计算所述当前状态下的动作概率分布以及均匀分布之间的空间距离;将所述空间距离作为所述探索能力调整值; 基于所述预测回报和探索能力调整值,对所述深度学习网络的参数进行调整。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人浙江大学,其通讯地址为:310013 浙江省杭州市西湖区余杭塘路866号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。