Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 积分商城 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 哈尔滨工业大学周栋获国家专利权

哈尔滨工业大学周栋获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉哈尔滨工业大学申请的专利一种基于深度强化学习的四旋翼无人机自主视觉导航避障方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119937590B

龙图腾网通过国家知识产权局官网在2025-10-28发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510101836.9,技术领域涉及:G05D1/46;该发明授权一种基于深度强化学习的四旋翼无人机自主视觉导航避障方法是由周栋;孙光辉;王俊侨;邵翔宇;吴立刚设计研发完成,并于2025-01-22向国家知识产权局提交的专利申请。

一种基于深度强化学习的四旋翼无人机自主视觉导航避障方法在说明书摘要公布了:一种基于深度强化学习的四旋翼无人机自主视觉导航避障方法,本发明涉及无人机自主导航技术领域,具体涉及基于深度强化学习的四旋翼无人机自主视觉导航避障方法。本发明的目的是为了解决现有无人机自主视觉导航避障准确率低的问题。过程为:构建四旋翼无人机自主视觉导航避障仿真环境,选择并初始化四旋翼无人机的动力学模型,设置无人机的起始位置并设定目标位置;在仿真环境中设置状态空间、观测空间和动作空间;构建自主视觉导航避障决策智能体的神经网络模型;获得训练好的自主视觉导航避障决策智能体的神经网络模型;基于训练好的自主视觉导航避障决策智能体的神经网络模型对待控制四旋翼无人机进行避障控制。

本发明授权一种基于深度强化学习的四旋翼无人机自主视觉导航避障方法在权利要求书中公布了:1.一种基于深度强化学习的四旋翼无人机自主视觉导航避障方法,其特征在于:所述方法具体过程为: 步骤1:构建四旋翼无人机自主视觉导航避障仿真环境,选择并初始化四旋翼无人机的动力学模型,设置无人机的起始位置并设定目标位置; 步骤2:在仿真环境中设置状态空间、观测空间和动作空间; 步骤3:构建自主视觉导航避障决策智能体的神经网络模型; 步骤4:训练自主视觉导航避障决策智能体的神经网络模型,获得训练好的自主视觉导航避障决策智能体的神经网络模型; 步骤5:基于训练好的自主视觉导航避障决策智能体的神经网络模型对待控制四旋翼无人机进行避障控制; 所述步骤4中训练基于深度强化学习自主视觉导航避障决策智能体的神经网络模型,获得训练好的基于深度强化学习自主视觉导航避障决策智能体的神经网络模型;具体过程为: 步骤31、定义奖励函数; 奖励函数包括稀疏奖励和连续奖励; 稀疏奖励为:若当前时间步回合结束,奖励包括成功到达目标点时的正奖励,发生碰撞及超出飞行范围时的负奖励;具体过程为: 当无人机进入目标到达距离范围内时,获得一个正奖励+10;如果无人机与障碍物发生碰撞或飞出环境边界,则会获得一个惩罚-5; 连续奖励的表达式如下式所示: 其中, re表示奖励项;dg表示起点到目标的距离,dt和dt-1分别表示无人机在当前和前一个时间步与目标的距离; pp表示惩罚项1;z和zg分别表示无人机当前时间步和目标位置的z轴坐标,dl表示无人机当前位置到起点和目标所连直线的距离;函数clip用于对数据限幅; po表示惩罚项2;do表示无人机到障碍物表面的最短距离;dc为碰撞距离;ds是安全距离; r表示连续奖励值;ηr是re的缩放因子,ηp是pp的缩放因子,ηo是po的缩放因子; 步骤32、设定经验回放池参数、深度强化学习神经网络参数;具体过程为: 经验回放池参数为经验回放池的大小参数; 深度强化学习神经网络超参数包括网络结构、神经元数目、学习率、折扣因子、学习率、学习开始步数、经验回放池大小、批大小、训练频率、动作噪声标准差、训练环境数目、总训练步数、回合最大步数; 步骤33、设定动作选择策略完成经验收集;具体过程为: 首先,采用ε-贪婪策略选择随机动作或演员网络输出的动作; 然后,无人机执行选择的随机动作或演员网络输出的动作,并与环境进行交互,生成转移后的新状态、转移后的新观测、环境返回的奖励值; 将当前状态、当前观测、选择的动作、转移后的新状态、转移后的新观测、环境返回的奖励值st,ot,at,st+1,ot+1,rt存入经验回放池,从而完成一次经验收集; st表示当前状态,ot表示当前观测,at表示当前选择的动作,st+1表示转移后的新状态,ot+1表示转移后的新观测,rt表示环境返回的奖励值; 步骤34、设定多智能体探索策略完成经验收集;具体过程为: 用M个进程并行运行M个AirSim环境,在每个环境中放置一架无人机执行步骤33中的经验收集,从而完成一次经验收集; M个无人机都将观测输入给同一个决策网络,获得相应的动作,执行动作与环境进行交互,生成转移后的新状态、转移后的新观测、环境返回的奖励值;将当前状态、当前观测、选择的动作、转移后的新状态、转移后的新观测、环境返回的奖励值st,ot,at,st+1,ot+1,rt存入同一个经验回放池,从而完成一次经验收集; 步骤35、训练基于深度强化学习自主视觉导航避障决策智能体的神经网络模型,获得训练好的基于深度强化学习自主视觉导航避障决策智能体的神经网络模型。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人哈尔滨工业大学,其通讯地址为:150001 黑龙江省哈尔滨市南岗区西大直街92号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。