Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 积分商城 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 东华大学刘华山获国家专利权

东华大学刘华山获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉东华大学申请的专利一种基于阶段性采样与进步趋势奖励的机器人强化学习训练方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119871415B

龙图腾网通过国家知识产权局官网在2025-10-10发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510128959.1,技术领域涉及:B25J9/16;该发明授权一种基于阶段性采样与进步趋势奖励的机器人强化学习训练方法是由刘华山;杨景鹏;肖新杰;张国敬;郑逸鉴;梁浩天;邢逸飞;王崇;冯焘设计研发完成,并于2025-02-05向国家知识产权局提交的专利申请。

一种基于阶段性采样与进步趋势奖励的机器人强化学习训练方法在说明书摘要公布了:本发明提供了一种基于阶段性采样与进步趋势奖励的机器人强化学习训练方法。先通过引入改进型三记忆库的记忆库结构,结合在机器人运动规划技能训练中不同阶段的特征,进行记忆库两两组合采样的方式进行针对性经验回放。随后,在训练后期,采用探索记忆库经验迁移的方式,将筛选后得到的优质探索经验替换原有的专家经验,以达到自学习、避免过拟合的目的。最后,对探索记忆库中连续存储的小范围经验使用进步趋势评估方法进行训练评估,并将评估结果表示为当前机器人的进步奖励,从而在不影响学习质量的前提下提升机器人的任务技能学习效率。该方法能够在复杂障碍物场景中实现有效快速的运动规划,为机器人技能在不同场景中的泛化提供原理性支持。

本发明授权一种基于阶段性采样与进步趋势奖励的机器人强化学习训练方法在权利要求书中公布了:1.一种基于阶段性采样与进步趋势奖励的机器人强化学习训练方法,其特征在于,包括以下步骤: 步骤1、搭建包括导师记忆库、特征记忆库以及探索记忆库在内的改进型三记忆库基础结构,并进一步确认导师记忆库、特征记忆库以及探索记忆库各自存储容量,其中,特征记忆库结构上进一步划分为导师子库与探索子库; 步骤2、对获取的导师原始数据进行筛选,并将筛选后的优质导师数据填充进导师记忆库; 步骤3、基于深度强化学习算法,并通过机器人与虚拟仿真环境交互训练得到机器人的探索数据; 步骤4、将步骤3中获取到的探索数据实时写入探索记忆库,同时,根据训练过程中期切换指标Ipm与后期切换指标Ima,进行训练阶段确认,进而根据训练所处阶段将探索数据写入导师记忆库或特征记忆库,其中,训练阶段包括训练前期、训练中期、训练后期,其中,将探索数据写入导师记忆库或特征记忆库具体包括以下步骤: 步骤401、计算中期切换指标Ipm与后期切换指标Ima,指标计算公式如下: 其中:表示每T个时间步落在导师子库FT的经验条数;CeachT表示每T个时间步的总经验条数;Cdone表示每E个训练回合机器人接触到目标点的回合数;CeachE表示E个训练回合的总回合数; 步骤402、进行训练阶段切换判定,并基于判定结果确认当前时间步所处训练阶段: 当Ipm≥μ时,将当前训练阶段切换为中期; 当Ima≥λ时,将当前训练阶段切换为后期; 其他情况下,不进行阶段状态切换,其中,μ与λ均为超参数; 步骤403、根据步骤402中获取的训练阶段状态,将步骤3中获取到的探索数据经碰撞筛选后写入导师记忆库或特征记忆库: 若训练处于训练前期与训练中期,将筛选后的探索数据根据状态st中的Distg与Distc临近状态,分别与临近目标距离阈值Ntg与临近障碍物阈值Ntc进行特征分类:当Distg≤Ntg时,写入特征记忆库FT子模块;当Distc≤Ntc时,写入特征记忆库FE子模块; 若训练处于训练后期,将筛选后的探索数据依此替换导师记忆库中的导师数据,进行导师数据更新,避免过拟合; 步骤5、根据步骤4中阶段判定结果确定记忆库的阶段性组合采样模式与对应记忆库的目标采样数据数,以此获取批次组合采样数据; 步骤6、将步骤5中的组合采样数据进行整合以更新训练神经网络物理参数。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人东华大学,其通讯地址为:200051 上海市长宁区延安西路1882号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。