Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 积分商城 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 西安爱生技术集团有限公司祝小平获国家专利权

西安爱生技术集团有限公司祝小平获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉西安爱生技术集团有限公司申请的专利一种面向无人机图像导航的深度强化学习加速训练方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115345281B

龙图腾网通过国家知识产权局官网在2025-10-10发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211003481.2,技术领域涉及:G06N3/092;该发明授权一种面向无人机图像导航的深度强化学习加速训练方法是由祝小平;王飞;祝宁华设计研发完成,并于2022-08-21向国家知识产权局提交的专利申请。

一种面向无人机图像导航的深度强化学习加速训练方法在说明书摘要公布了:本发明涉及一种面向无人机图像导航的深度强化学习加速训练方法,包括物体检测模型的训练和动作选择策略的训练。其中,动作选择策略的训练是根据物体检测模型的模拟输出值并通过深度强化学习方法进行的。在基于图像的深度强化学习方法的训练中使用图像检测模型的模拟输出值代替图像检测模型的输出值来加速训练,该方法有如下优势:减少训练耗时,降低GPU使用率及显存占比和通用性较强。

本发明授权一种面向无人机图像导航的深度强化学习加速训练方法在权利要求书中公布了:1.一种面向无人机图像导航的深度强化学习加速训练方法,其特征在于包括物体检测模型的训练和动作选择策略的训练,训练步骤如下: 物体检测模型的训练: 步骤1:在包含障碍物的图像s中标注障碍物信息其中t是障碍物的类型,是障碍物在s中的坐标; 步骤2:初始化物体检测模型; 步骤3:将包含障碍物的图像s及标注障碍物信息输入至物体检测模型中,对物体检测模型进行训练,获得可识别障碍物的物体检测模型,识别结果为障碍物在图像中的位置obsposImage 步骤4:根据物体检测模型输出值obsposImage的特性,通过障碍物的实际坐标p计算物体检测模型的模拟输出obs′posImage 障碍物在视野框中的相对坐标是: obs′posImage=obs′posImage_X,obs′posImage_Y 其中: obs,obs,0是障碍物的实际位置;P2,P2是视野框左上角顶点的坐标;Δχ是坐标系的旋转量; 无障碍物进入视野框时,物体检测模型的模拟输出obs′posImage=0,0; 动作选择策略的训练: 步骤5:定义深度强化学习方法中的状态st、动作at及奖励函数R; 状态st:st=obs′posImage,pu,pg,其中,目的地坐标为pg,无人机的坐标为pu; 无人机可执行动作at描述为左转或右转; 奖励函数R:当发生碰撞或出界时扣1分,当到达终点时奖励1分; 步骤6、训练初始化:将动作选择策略π·中预测网络的参数定义为θ,将目标网络的参数定义为θ-; 步骤7:将状态st输入至动作选择策略πθ中,得到选择动作aUt; 步骤8:执行动作aUt后,根据奖励函数R获得奖励rU,并将执行动作aUt后的状态作为新的状态st+1; 步骤9:将st,aUt,r,st+1存入经验池; 步骤10:从经验池中随机抽取经验,计算损失值,通过梯度下降算法根据损失函数Lθ对选择策略的参数θ进行优化,获得实现图像导航的动作选择策略πθ; 以损失函数Lθ计算损失值为: Lθ=Ey-Qst,aUt,θ 其中,γ为折扣率,是目标网络的输出,Q·是预测网络的输出。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人西安爱生技术集团有限公司,其通讯地址为:710065 陕西省西安市沣惠南路34号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。