Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 积分商城 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 南京理工大学胡哲获国家专利权

南京理工大学胡哲获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉南京理工大学申请的专利一种基于TD3算法的深度强化学习制导方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115639746B

龙图腾网通过国家知识产权局官网在2025-11-11发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210938319.3,技术领域涉及:G05B13/04;该发明授权一种基于TD3算法的深度强化学习制导方法是由胡哲;易文俊设计研发完成,并于2022-08-05向国家知识产权局提交的专利申请。

一种基于TD3算法的深度强化学习制导方法在说明书摘要公布了:本发明公开一种基于TD3算法的深度强化学习制导方法。包括如下步骤:1:建立导弹与目标的相对运动模型;2:设计马尔可夫决策过程;3:构建深度强化学习制导方法的网络模型;将构建好的模型进行离线训练,然后利用训练好的网络模型来进行法向加速度的输出;设计马尔可夫决策过程,将视线角速率作为状态空间,将法向加速度作为动作空间,然后在利用确定性策略梯度原理,寻找最优的神经网络参数,然后利用训练好的神经参数,实现从视线角速率到法向加速度的直接映射。

本发明授权一种基于TD3算法的深度强化学习制导方法在权利要求书中公布了:1.一种基于TD3的深度强化学习制导方法,其特征在于,包括如下步骤: 步骤1:建立导弹与目标的相对运动模型; 步骤2:设计马尔可夫决策过程;过程中的奖励函数设计如下: 为了使智能体朝着视线角速率减小的方向探索,将奖励函数设置为如下形式: 第一部分如式2所示,t表示当前时刻,Rt是表示当前时刻所产生的奖励,越小获得的奖励越高,最高一次是100,第二部分R1是一个终端奖励,当相对距离r10m时发生碰撞才能产生奖励,期望预计最小脱靶量能达到0.01,并控制奖励上限,当r0.1m时,R1的量级将能对整体的奖励函数产生影响,而但当0.1mr10m时,R1奖励数值还比较小,对整体的奖励产生不了太大的影响,这样设计的奖励函数使智能体朝着更高的精度进行探索; 最终的奖励函数 其中Hit表示终止条件; 步骤3:构建深度强化学习制导方法的网络模型;采取双Critic网络模块来延迟更新网络参数,然后将构建好的模型进行离线训练,利用训练好的网络模型来进行法向加速度的输出。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人南京理工大学,其通讯地址为:210094 江苏省南京市孝陵卫200号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。