福州大学黄捷获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉福州大学申请的专利一种基于单评论家强化学习结构的多智能体编队控制方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116185020B 。
龙图腾网通过国家知识产权局官网在2025-07-18发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310081638.1,技术领域涉及:G05D1/43;该发明授权一种基于单评论家强化学习结构的多智能体编队控制方法是由黄捷设计研发完成,并于2023-01-19向国家知识产权局提交的专利申请。
本一种基于单评论家强化学习结构的多智能体编队控制方法在说明书摘要公布了:本发明涉及一种基于单评论家强化学习结构的多智能体编队控制方法,包括:构建多智能体系统的各个智能体的通讯结构;构建智能体相对于领航者智能体的跟踪误差,并构建描述智能体与领航者以及智能体与邻居智能体的误差,即编队误差;基于最优控制构建与编队误差和最优控制输入相关的代价函数以及值函数;对值函数进行展开求解,构建相应的HJB方程;对HJB方程求解关于最优控制的偏导得到最优控制输入关于最优值函数的表现形式;对最优值函数进行分割得到分割的最优控制输入形式;引入单评论家强化学习结构,并结合神经网络,对得到的分割的最优值函数以及最优控制输入进行求解。该方法有利于降低估计误差并减少计算时间。
本发明授权一种基于单评论家强化学习结构的多智能体编队控制方法在权利要求书中公布了:1.一种基于单评论家强化学习结构的多智能体编队控制方法,其特征在于,包含如下步骤: 步骤一:基于应用数学中的图论,构建多智能体系统的各个智能体的通讯结构,考虑系统为一阶多智能体系统,每个智能体仅得到邻居智能体的位置信息;同时,系统中存在一个领航者智能体,其他智能体作为跟随者在运行过程中跟随领航者智能体的轨迹进行运动; 步骤二:针对系统中的每个智能体,根据其得到的邻居智能体信息,构建其相对于领航者智能体的跟踪误差,并且根据跟踪误差,构建描述智能体与领航者以及智能体与邻居智能体的误差,即编队误差; 步骤三:基于最优控制构建与编队误差和最优控制输入相关的代价函数以及值函数; 步骤四:基于泰勒公式以及步骤三中得到的值函数,对值函数进行展开求解,得到相应的哈密尔顿-贾克比-贝尔曼方程; 步骤五:针对步骤四得到的哈密尔顿-贾克比-贝尔曼方程,对其求解关于最优控制的偏导得到最优控制输入关于最优值函数的表现形式; 步骤六:对最优值函数进行分割得到其关于编队误差以及未知函数的表达形式,并且根据步骤五的最优控制输入表现形式,得到分割的最优控制输入形式; 步骤七:引入单评论家强化学习结构,并结合神经网络,对步骤六中得到的分割的最优值函数以及最优控制输入进行求解,其中神经网络对于多智能体系统中的未知非线性项进行近似,评论家网络进行智能体系统的编队控制,并且对于编队控制的效果进行评价与改善; 针对多智能体系统内存在的未知非线性项fixi,通过引入神经网络进行近似估计: 其中,表示理想的神经网络权重矩阵;Sfixi表示基函数向量;∈fixi表示近似误差; 由于仅用于理论分析但实际中为未知矩阵,因此引入估计矩阵进行估计,得到由神经网络辨识器近似的如下: 根据得到的近似函数得到其他变量的估计值; 所述最优值函数以及最优控制输入通过分割参数的方式转换为如下表达形式: 其中,ki表示一个大于零的常数项;且的表达式为引入基于单评论家强化学习结构后的最优值函数和最优控制输入的表达如下所示: 其中,表示引入的估计评论家网络参数矩阵;Si表示神经网络径向基函数;评论家网络参数矩阵的更新律表达如下: 其中,kci表示评论家网络的学习率,而φi的具体表达如下:
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人福州大学,其通讯地址为:350108 福建省福州市闽侯县福州大学城乌龙江北大道2号福州大学;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。