Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 积分商城 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 中国人民解放军国防科技大学刘育玮获国家专利权

中国人民解放军国防科技大学刘育玮获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉中国人民解放军国防科技大学申请的专利一种基于多智能体强化学习的火箭着陆控制方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120278007B

龙图腾网通过国家知识产权局官网在2025-11-18发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510343532.3,技术领域涉及:G06F30/27;该发明授权一种基于多智能体强化学习的火箭着陆控制方法是由刘育玮;吴建军;程玉强;潘为;杨述明;李阳;邓凌志;王彪设计研发完成,并于2025-03-21向国家知识产权局提交的专利申请。

一种基于多智能体强化学习的火箭着陆控制方法在说明书摘要公布了:本发明公开了火箭着陆控制方法技术领域的一种基于多智能体强化学习的火箭着陆控制方法,该火箭着陆控制方法包括以下步骤:建立火箭发动机模型,采集并输出液体火箭发动机工作过程中所必须的状态参数;建立运载火箭垂直降落仿真模型,采集并输出与运载火箭垂直降落过程中所必须的参数;定义发动机起动过程中的状态空间、动作空间和奖励函数;在MADDPG算法的基础上,进行改进,实现LCO‑MADDPG算法;设计、训练和评估MARL模型。该火箭着陆控制方法通过智能化控制方法,无需设计复杂的控制逻辑,实现运载火箭垂直降落过程控制的非线性控制。

本发明授权一种基于多智能体强化学习的火箭着陆控制方法在权利要求书中公布了:1.一种基于多智能体强化学习的火箭着陆控制方法,其特征在于,包括以下步骤: S1.建立火箭发动机模型,采集并输出液体火箭发动机工作过程中所必须的状态参数; S2.建立运载火箭垂直降落仿真模型,采集并输出与运载火箭垂直降落过程中所必须的参数; S3.定义发动机起动过程中的状态空间、动作空间和奖励函数; S4.在MADDPG算法的基础上,进行改进,实现无损凸优化的MADDPG算法; S5.设计、训练和评估MARL模型; 所述S3包括以下步骤: S31.定义发动机起动过程中的状态空间; 需要定义每个agent的状态空间,设置的状态空间如下: Sagent=[MRGG,PGG,TGG,MRCC,PCC,TCC,F,H,V,a,PosVGO,PosVGF,PosVCF] 其中,MRGG,PGG,TGG,MRCC,PCC,TCC,F分别为发动机燃气发生器混合比、燃气发生器室压、燃气发生器温度、推力室混合比、推力室室压、推力室温度、推力大小,H,V,a为运载火箭的高度、速度和加速度,PosVGO,PosVGF,PosVCF分别表示燃气发生器氧化剂阀、燃气发生器燃料阀、燃烧室燃料阀,用稳态参考值对状态空间进行归一化; S32.定义发动机起动过程中的动作空间; Agent的动作空间A由三个阀门的开度组成 Aagent=[PosVGO,PosVGF,PosVCF] 在每个时间步长内,MARLAgent接收环境观测结果,并向发动机的控制阀门发送控制信号; S33.定义发动机起动过程中的奖励函数; 所述S33包括以下步骤: S331.用于训练MARL和评估起动时序的奖励由以下不同的部分组成: Reward=Rengine+Rlanding Rengine=re1+re2+re3 第一项奖励是: 其中,εi∈[MRGG,PGG,TGG,MRCC,PCC,TCC]对目标值靠近的奖励,该项中每个奖励分量都被削去0.2的最大值,以改善训练平衡起动和稳态期间的累计奖励; 第二项奖励是: 这里假设发动机一旦启动之后,就不会再关闭,因此,在发动机产生推力之后,发动机推力就不应该在后面为0,防止发动机在降落过程中关机; 第三项奖励是: 其中,Acti∈[PosVGO,PosVGF,PosVCF]分别表示发动机三个阀门的开度,鼓励在发动机点火之前,尝试开启阀门;S表示阀门前后两个步长之间阀门位置的变化,用于惩罚阀门的往复动作,通过该项,可抑制agent在垂直下降过程频繁作动阀门导致的振荡; S332. Rlanding=rl1+rl2+rl3 rl1=0.2·exp-absV10+0.2·stepmax-stepcurrentstepmax 其中,stepmax是每个训练回合的最大步数,stepcurrent是当前的训练步数,采用指数形式的奖励,引导agent实现运载火箭减速; 另外,将step引入到奖励函数中,促进agent在更短的时间内完成运载火箭着陆, rl2=0.2·expH50+0.2·stepmax-stepcurrentstepmax 与上式相同,其目的是为了使agent完成更快,更好的着陆, 在运载火箭成功着陆之后agent获得巨大的奖励,使成功着陆的策略获得鼓励,以训练出更多成功着陆的策略。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中国人民解放军国防科技大学,其通讯地址为:410073 湖南省长沙市开福区德雅路109号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。