Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
专利交易 商标交易 积分商城 国际服务 IP管家助手 科技果 科技人才 会员权益 需求市场 关于龙图腾 更多
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 清华大学刘晟奕获国家专利权

清华大学刘晟奕获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉清华大学申请的专利一种基于强化学习的短垂推进系统垂直降落阶段性能恢复控制方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120010246B

龙图腾网通过国家知识产权局官网在2026-03-20发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411973967.8,技术领域涉及:G05B13/04;该发明授权一种基于强化学习的短垂推进系统垂直降落阶段性能恢复控制方法是由刘晟奕;王向阳;徐丰;刘志丹;杨明远;朱纪洪设计研发完成,并于2024-12-30向国家知识产权局提交的专利申请。

一种基于强化学习的短垂推进系统垂直降落阶段性能恢复控制方法在说明书摘要公布了:本专利给出了一种基于强化学习的短垂推进系统垂直降落阶段性能恢复控制方法。该优化方法通过强化学习算法将短垂推进系统的退化情况考虑到控制器的设计中,通过强化学习预训练的智能体保证在部件退化的扰动情况下,短垂推进系统的多个推力输出依然能够保持平稳,帮助短垂飞行器在垂直降落阶段在发生退化的情况下依然能够保持俯仰姿态的平衡。

本发明授权一种基于强化学习的短垂推进系统垂直降落阶段性能恢复控制方法在权利要求书中公布了:1.一种基于强化学习的短垂推进系统垂直降落阶段性能恢复控制方法,其特征在于包括以下步骤: 步骤1:初始化智能体中的评论深度神经网络参数,其中是从短垂推进系统中输出的状态,状态包括推力和、推力比、升力风扇效率因子、风扇效率因子、高压压气机效率因子、高压涡轮效率因子以及低压涡轮效率因子,即,是从强化学习中输出的动作,动作包括燃油流量和升力风扇进口导叶角度,,是神经网络中的权重和偏置参数的合集,评论深度神经网络的目的是学习一个最优的函数,从而可以根据状态和动作评价出一个值来表示这个状态-动作对价值,进入步骤2; 步骤2:初始化智能体中的动作深度神经网络参数,其中是从短垂推进系统中输出的状态,是神经网络中的权重和偏置的参数合集,动作深度神经网络的目的是学习一个最优的函数从而可以根据状态映射出输出的动作,进入步骤3; 步骤3:将短垂推进系统的输入设置为动作深度神经网络的输出,即短垂推进系统作为智能体探索的环境,将短垂推进系统根据动作深度神经网络的输出从而导致的参数改变进行奖励函数的计算,公式如下: 式中,代表仿真时间,代表奖励,代表推力和的误差,即高度通道的性能恢复误差,代表推力比的误差,即姿态通道的性能恢复误差,是超温惩罚项,即如果不超温,如果超温,设置完奖励后进入一次探索以生成初始经验,进入步骤4; 步骤4:根据初始化参数进行随机探索,获得初始的状态,进入步骤5; 步骤5:根据当前的策略和探索噪声选择当前时刻的动作,公式如下: 式中,是时刻的动作,是当前时刻状态在动作深度神经网络的参数设置下映射出的输出,是探索噪声,将输入到短垂推进系统中根据步骤3中设置的奖励函数计算当前的奖励,同时获得一个新的状态,将状态-动作对存储在经验回放缓冲区中,然后进入步骤6; 步骤6:从经验回放区中采样一个小批次的状态-动作对,其中代表批次的大小,将这一个采样批次的输入投放入评论深度神经网络中计算损失函数,计算公式如下: 式中,是内部批次的循环次数,是损失函数,表示要最小化的目标即评论深度神经网络的参数,是当前状态-动作对在当前神经网络参数下的价值,是神经网络的学习目标,其公式如下: 式中,是内部批次的循环次数,是当前采样批次下的奖励,是衰减系数,表示评论目标神经网络的参数,即想要通过降低损失函数从而使得深度神经网络尽可能逼近目标神经网络,相比于频繁更新的主网络,目标网络具有更低的更新频率,且使用加权的方式从主网络更新参数,如下所示: 式中,是一个介于0和1之间的超参数,它决定了软更新的程度,然后进行动作深度神经网络的参数更新,进入步骤7; 步骤7:通过当前批次采样得到的数据进行策略更新,公式如下: 式中,是内部批次的循环次数,是损失函数,是评论深度神经网络的参数,是动作深度神经网络的参数,表示当前状态,表示在当前状态采取的动作,表示学习率,表示相对于动作的损失梯度,表示相对于的损失梯度,通过选择当前值函数中的作为值函数的估计值,可以看出策略改进所依赖的策略梯度是由值函数多次求导得出的,更新策略目标网络参数的方法是沿着价值函数的映射梯度向上,使行动策略朝着值函数增加的方向变化,然后进行动作深度神经网络参数更新: 式中,是一个介于0和1之间的超参数,它决定了软更新的程度,然后进行批次内迭代,如果,继续回到步骤6进行神经网络更新,如果,进入步骤8; 步骤8:判断当前时刻与总回合数大小关系,如果,返回步骤3,如果则离线训练结束,将离线训练完成后的智能体配置到环境中,智能体的输入为短垂推进系统的状态,输出为短垂推进系统的控制输入,从而实现考虑性能退化的无模型性能恢复控制设计。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人清华大学,其通讯地址为:100084 北京市海淀区清华园;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。