大连理工大学费中阳获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉大连理工大学申请的专利基于强化学习的倾转旋翼无人机姿态控制方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN121578808B 。
龙图腾网通过国家知识产权局官网在2026-03-20发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202610116235.X,技术领域涉及:G05D1/49;该发明授权基于强化学习的倾转旋翼无人机姿态控制方法是由费中阳;王泽寰;左子煊;简飞扬;吴玉虎;方旭;吴宝林;史爽设计研发完成,并于2026-01-28向国家知识产权局提交的专利申请。
本基于强化学习的倾转旋翼无人机姿态控制方法在说明书摘要公布了:本发明属于飞行控制领域,公开基于强化学习的倾转旋翼无人机姿态控制方法,对倾转旋翼无人机的垂直起降模式子模态、固定翼子模态、前向过渡切换子模态和后向过渡切换子模态下的姿态进行最优跟踪控制,保证切换过程中的倾转旋翼无人机姿态稳定可控,保障其在模式切换过程中的安全性和可靠性。本发明以自适应动态规划的方式,通过强化学习方法训练最优跟踪控制器实现对具有复杂非线性与模型不确定特性的倾转旋翼无人机的最优控制。相较于传统的PID控制算法,在各个子飞行模式中,其均表现出更好的稳态和动态性能。在子飞行模式切换的过程中,其能够更加平稳和快速的完成不同子飞行模式之间的过渡过程,实现更加优良的控制效果。
本发明授权基于强化学习的倾转旋翼无人机姿态控制方法在权利要求书中公布了:1.基于强化学习的倾转旋翼无人机姿态控制方法,其特征在于,步骤如下: 步骤1:建立控制模型; 根据倾转旋翼无人机的动力短舱倾角和该动力短舱倾角下的倾转旋翼无人机控制特性,将倾转旋翼无人机的飞行过程分为四个子模态:垂直起降模式子模态、固定翼子模态、前向过渡切换子模态和后向过渡切换子模态,分别对应动力短舱倾角为0度、90度、70度和90度;将倾转旋翼无人机的不同子模态的动力学方程建模为以下非线性受控切换系统: 其中,表示非线性受控切换系统的状态,表示非线性受控切换系统的连续控制信号,表示时间步长,表示状态和连续控制信号的维度,表示状态空间,表示控制信号空间,表示倾转旋翼无人机的子模态的集合,表示非线性受控切换系统中子模态的数量,表示n维和m维实数集,表示倾转旋翼无人机的子模态序号;假定各子模态对应的非线性受控切换系统为利普西茨连续的,且;将第个子模态使用的连续反馈控制策略用表示,则该子模态控制器设计的目标是得到一个连续反馈控制策略,使子模态的状态轨迹能跟上参考轨迹;定义参考轨迹为: 其中,是非线性受控切换系统在时刻的参考轨迹,是一个可微函数;假设存在一个相对于参考轨迹的连续反馈控制策略,并求解出该连续反馈控制策略;定义时刻的跟踪误差为: 定义子模态的连续跟踪控制策略为: 由此构建误差系统为: 在非线性受控切换系统中,除了要选择被激活的子模态,还要提供该被激活的子模态的连续控制信号;在非线性受控切换系统运行过程中的任一时刻,被激活的子模态序号和其连续控制信号用一个元组表示,并由此构成混杂空间,表示为: 步骤2:初始化经验回放池; 每一条储存在经验回放池中的经验都是倾转旋翼无人机在与环境进行交互的过程中产生的,包括倾转旋翼无人机时刻的跟踪误差、时刻的连续控制信号、时刻二次型损失函数值和时刻的跟踪误差;每个子模态都有其对应的经验回放池,用于储存对应子模态的经验;训练过程中采集到的经验要添加到经验回放池内; 当经验回放池达到最大容量后,则转变为先进先出模式:每储存一个新采集到的经验,就会将经验回放池内最早储存的经验删除; 步骤3:构造强化学习最优跟踪控制器; 强化学习最优跟踪控制器接受跟踪误差作为输入,并输出连续控制信号;强化学习最优跟踪控制器通过训练迭代更新对应子模态的连续跟踪控制策略,使输出的连续控制信号对如下性能函数是最优的: 其中,为折扣因子,和为时刻和时刻的二次型损失函数,和为正定矩阵,代表二次型损失函数中的权重矩阵; 单个强化学习最优跟踪控制器由一个策略网络和两个评价网络组成,两个评价网络的结构完全一致,组成双评价网络结构; 策略网络有三个全连接层,前两个全连接层后使用一个Relu激活函数层对输入数据进行处理;策略网络的输入数据维数与非线性受控切换系统的跟踪误差的维数保持一致,输出数据的维数与非线性受控切换系统的连续控制信号的维数保持一致;将非线性受控切换系统的跟踪误差输入策略网络后,由全连接层和Relu激活函数层进行处理,并通过一个全连接层进行变换得到与非线性受控切换系统的连续控制信号维数相同的向量;为了使该向量符合倾转旋翼无人机执行器的物理特性,需要对策略网络的输出数据进行归一化操作并放缩到倾转旋翼无人机执行器输入的限幅内;具体操作为: 其中,为最终输入到倾转旋翼无人机执行器的连续控制信号,为策略网络最后一个全连接层输出的向量,为倾转旋翼无人机执行器的输入限幅范围; 评价网络有四个全连接层,前三个全连接层后使用一个Relu激活函数层对输入数据进行处理;评价网络的输入数据维数为非线性受控切换系统的跟踪误差的维数与连续控制信号的维数之和,输出数据为一维常数,表示在当前连续跟踪控制策略作用下未来的二次型损失函数之和; 本方法采用双评价网络和策略网络延迟更新架构,并使用软更新的方式对策略网络和评价网络的权重参数进行更新;在评价网络进行更新时,使用两个评价网络输出中的最小值用于计算目标值; 其中,为当前时刻计算得到的二次型损失函数,为迭代轮数,和为两个评价网络的输出,表示对后续时刻的损失函数之和的预测值;表示取和中的最小值,以用于计算得到最终的目标性能函数值并用于进行评网络的更新; 步骤4:构造多个子模态间的切换规则; 垂直起降模式子模态、固定翼子模态、前向过渡切换子模态和后向过渡切换子模态之间的切换规则:四个子模态之间的切换规则是一类具有方向性的循环切换;当从垂直起降模式子模态切换到固定翼子模态时,需要经过前向过渡切换子模态;当从固定翼子模态切换到垂直起降模式子模态时,需要经过后向过渡切换子模态;通过状态触发切换的方式,将倾转旋翼无人机由前向过渡切换子模态切换到固定翼子模态的触发条件设置为飞行空速达到设置的前向切换预定值,该前向切换预定值大于固定翼子模态下的最小平飞空速;在从后向过渡切换子模态切换到垂直起降模式子模态的触发条件为倾转旋翼无人机的飞行空速降低到后向切换预定值; 步骤5:训练强化学习最优跟踪控制器; 在训练开始前,加载经验回放池;训练过程中产生的新数据也将被添加到经验回放池中; 在训练开始后,通过在经验回放池中进行均匀的随机采样,组成每次更新计算所需的数据集;强化学习最优跟踪控制器的训练通过反向传播和梯度下降法对评价网络和策略网络的参数进行更新,其中用于更新评价网络的损失函数为: 其中,为评价网络对当前跟踪误差预测的性能函数值,为结合当前由跟踪误差与连续控制信号计算得到的损失和下一时刻性能函数值相加得到的目标性能函数值,N为每次更新计算所需的数据集大小; 用于更新策略网络的损失函数为: 其中,为将跟踪误差和该跟踪误差输入策略网络后得到的连续控制信号一起计算得到的性能函数值; 训练过程中,将强化学习最优跟踪控制器输出的连续跟踪控制策略输入到倾转旋翼无人机非线性受控切换系统中,实时观察到控制器更新的过程;同时,倾转旋翼无人机和环境交互过程中产生的新数据将作为经验加入到经验回放池中。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人大连理工大学,其通讯地址为:116024 辽宁省大连市甘井子区凌工路2号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励