中国人民解放军国防科技大学;西南交通大学谢愈获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉中国人民解放军国防科技大学;西南交通大学申请的专利参数化动作空间的多智能体决策方法、装置、计算机设备及介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN117151158B 。
龙图腾网通过国家知识产权局官网在2025-08-19发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202311031955.9,技术领域涉及:G06N3/008;该发明授权参数化动作空间的多智能体决策方法、装置、计算机设备及介质是由谢愈;周正春;张远龙;杨萌;李颖;田树聪;范锦秀;陈璟设计研发完成,并于2023-08-16向国家知识产权局提交的专利申请。
本参数化动作空间的多智能体决策方法、装置、计算机设备及介质在说明书摘要公布了:本发明提出一种参数化动作空间的多智能体决策方法、装置、计算机设备及介质,设置多智能体协同工作的任务场景、全局状态空间、动作空间以及奖励函数;获取当前时刻的观测信息,各智能体的策略网络根据当前的观测信息以及设置的任务场景、全局状态空间、动作空间决策出相应的行为动作,各智能体的价值评估网络生成用于评估各智能体决策出的行为动作价值的个体Q值;各智能体的个体Q值通过混合网络进行非线性复合得到用于评估联合动作效能的全局联合Q值;基于所述全局联合Q值以及奖励函数更新混合网络参数,各智能体的价值评估网络参数以及各智能体的策略网络参数。本发明能够解决传统的多智能体强化学习方法只能适用于离散型的动作空间或者连续型的动作空间的问题。
本发明授权参数化动作空间的多智能体决策方法、装置、计算机设备及介质在权利要求书中公布了:1.参数化动作空间的多智能体决策模型训练方法,其特征在于,包括: 获取当前时刻多智能体系统的全局状态信息以及多智能体系统中各智能体的轨迹信息,所述轨迹信息包括当前时刻智能体的观测信息以及上一时刻的动作信息,其中所述多智能体系统为多飞行器协同突防系统,智能体为飞行器; 将各智能体的轨迹信息输入各智能体对应的策略网络,由各智能体各自对应的策略网络输出离散型动作变量、连续型动作变量; 将当前时刻各智能体的轨迹信息以及各智能体对应的离散型动作变量、连续型动作变量输入各智能体对应的个体评估网络,由各智能体对应的个体评估网络评估当前各智能体个体行为价值的个体Q值; 将当前时刻多智能体系统的全局状态信息以及当前所有智能体个体行为价值的个体Q值作为混合网络的输入,混合网络通过多层非线性复合的方式拟合出全局联合Q值; 基于所述全局联合Q值对各智能体对应的策略网络参数、个体评估网络参数以及混合网络参数进行更新,直至完成多智能体决策模型的训练,其中基于所述全局联合Q值构建各智能体对应的个体评估网络参数以及混合网络参数的损失函数,优化损失函数同时更新各智能体对应的个体评估网络参数以及混合网络参数,其中损失函数如下: ; 其中表示计算[]内表达式的数学期望,表示个智能体的个体评估网络参数集合,表示第i个智能体的个体评估网络参数,表示当前时刻多智能体系统的全局状态信息,表示当前时刻所有智能体的连续型动作变量构成的联合连续型动作集合,表示当前时刻所有智能体的离散型动作变量构成的联合离散型动作集合,表示当前时刻依据预设的奖励函数计算得到的所有智能体的奖励值的总和,表示当前时刻所有智能体的轨迹信息的集合,表示下一时刻所有智能体的轨迹信息的集合,表示经验池,表示全局联合Q值,表示混合网络参数,表示目标全局联合Q值,表示折扣因子,表示下一时刻多智能体系统的全局状态信息,表示下一时刻所有智能体的连续型动作变量构成的联合连续型动作集合,表示下一时刻所有智能体的离散型动作变量构成的联合离散型动作集合,表示目标混合网络参数。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中国人民解放军国防科技大学;西南交通大学,其通讯地址为:410000 湖南省长沙市开福区德雅路109号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。