Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 长春工业大学苑德跃获国家专利权

长春工业大学苑德跃获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉长春工业大学申请的专利一种基于深度强化学习的端到端自主运动决策方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119782825B

龙图腾网通过国家知识产权局官网在2025-07-25发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510267110.2,技术领域涉及:G06F18/214;该发明授权一种基于深度强化学习的端到端自主运动决策方法是由苑德跃;李慧;刘越;孟凡荣;罗明月;姜志宇;张秀梅设计研发完成,并于2025-03-07向国家知识产权局提交的专利申请。

一种基于深度强化学习的端到端自主运动决策方法在说明书摘要公布了:本发明公开一种基于深度强化学习的端到端自主运动决策方法,该方法涉及多机器人运动、机器学习、集成决策等领域。首先采用改进Mamba‑YOLOv10实现对玻璃制品的精准识别;然后针对端到端自主运动的数据依赖问题,提出将经验回放机制HER和设计的奖励函数应用到深度Q网络中,实现HER‑DQN的集成式决策框架。与其他方法相比,本发明不仅能够在复杂光照条件和环境干扰下精准识别玻璃制品,还能提高生物化学实验室转运机器人在自主运动决策时的稳定性和鲁棒性,设计的端到端自主运动决策方法具有实时性和高效性,能够使生物化学实验室转运机器人安全自主的完成执行任务,可应用于农业、工业、服务业等领域都有有益成效。

本发明授权一种基于深度强化学习的端到端自主运动决策方法在权利要求书中公布了:1.一种基于深度强化学习的端到端自主运动决策方法,其特征在于,包括以下步骤: 步骤一、构建虚拟环境与系统架构;采用Gazebo仿真器设定一个初始环境,通过软件工具加入移动机器人系统、行人、其他玻璃实验工具构建和完善虚拟环境,移动机器人系统由机器人本体、传感器模块、处理模块和执行模块组成,传感器模块负责用Mamba-YOLOv10的目标检测结果来识别玻璃制品和周围复杂环境信息;处理模块用于处理对传感器采集到的信息进行执行定位、识别和导航任务;执行模块根据处理模块的计算结果控制机器人运动; 步骤二、玻璃制品的动态识别;Mamba模型采用动态稀疏卷积神经网络结构,与YOLOv10算法相结合对复杂光照条件和环境干扰下的玻璃制品进行特征分析,训练Mamba-YOLOv10模型,使机器人能够识别并定位远距离环境中的玻璃制品同时也能提取玻璃制品的位置、类别和置信度的信息,为决策和避障过程提供样本信息; 步骤三、设计状态空间和动作空间;使用经验回放-深度Q网络HER-DQN算法实现导航,在步骤1中搭建的虚拟环境中设置状态,设置行人状态,机器人状态,动作空间是用来描述机器人在当前环境中采取前进,后退,变换方向的动作; 步骤四、设计到达目标地点奖励、避障奖励、速度奖励三种奖励函数; 设置到达目标地点奖励函数为: 其中Rtarget是到达目标地点的奖励,dm为机器人与目标地点的最远距离; 设置避障奖励函数为: 其中Robstacle是避障奖励函数,dn是机器人到障碍物的距离; 设置速度奖励函数为: 上述设计的所有奖励函数中,机器人在转运制品时安全是最重要的,其次是要求到达转运地点,在上述三种奖励函数发生冲突时,首先保证安全、不发生碰撞,其次为了避免碰撞,速度奖励会得到控制,最后按要求到达目标地点,最终总体的系统奖励函数R: 其中,df是机器人到目标地点的绝对距离,T是时间,Rtarget、Robstacle、Rv分别是到达目标地点奖励函数、避障奖励函数和速度奖励函数,β、μ为各奖励函数的系数,满足 步骤五、计算时间差分目标;在HER-DQN中,计算时间差分目标TD-Target用于计算损失函数,通过最小化预测的Q值和TD-Target之间的均方误差来更新Q值的网络参数,有效地学习最优策略; TD-Target是通过以下公式计算得到的: 设置HER-DQN算法的损失函数: 带入TD-Target化简得: Lθi=F[yi-QS,A,θi2], 其中λ为折现因子,S是状态,R是奖励,A是行为,F是函数的系数,S'=St+1是下一时刻的状态,A'=At+1是下一时刻的行为,θi是Q网络的参数; 步骤六、训练经验回放制度;机器人持续与环境继续交互,存储经验更新神经网络,机器人在HER-DQN算法的训练中不断地与环境交互和学习,包括Mamba-YOLOv10检测到的目标位置信息,调整最佳路径,最终学会在给定状态下选择最佳的动作; 步骤七、模型评估测试;评估HER-DQN模型在机器人端到端自主运动决策中的性能,利用可视化工具MATLAB生成的奖励曲线,根据当前状态输入的模型,选择具有最高Q值的动作;将HER-DQN模型输出的动作转换为机器人可以执行的控制指令。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人长春工业大学,其通讯地址为:130000 吉林省长春市朝阳区延安大街长春工业大学南湖校区;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。