南京信息工程大学祁瀚文获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉南京信息工程大学申请的专利一种基于角色分配的大规模多智能体协同控制方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119623508B 。
龙图腾网通过国家知识产权局官网在2025-08-08发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510162871.1,技术领域涉及:G06N3/008;该发明授权一种基于角色分配的大规模多智能体协同控制方法是由祁瀚文;马廷淮;彭可兴设计研发完成,并于2025-02-14向国家知识产权局提交的专利申请。
本一种基于角色分配的大规模多智能体协同控制方法在说明书摘要公布了:本申请涉及一种基于角色分配的大规模多智能体协同控制方法、装置和计算机设备。所述方法包括:基于各智能体在指定环境中探索,收集每个智能体与环境交互的至少一条轨迹数据,并将各智能体对应的轨迹数据存入经验回放池;分别针对指定环境中的各智能体,执行步骤S2‑1到步骤S2‑6,获得各智能体的个体动作价值,基于全部智能体的个体动作价值使用QMIX网络生成联合动作价值;基于联合动作价值通过Q‑learning算法更新各智能体的个体动作价值。采用本方法能够提升多智能体协同控制的精度和稳定性,还为大规模智能体协作系统提供了一个高效、可靠的解决方案,能够显著提升系统的整体性能和适应复杂任务的能力。
本发明授权一种基于角色分配的大规模多智能体协同控制方法在权利要求书中公布了:1.一种基于角色分配的大规模多智能体协同控制方法,其特征在于,所述方法用于对智能体实现自动角色分配,确保智能体在各自稳定的角色中完成协作,包括: 步骤S1,基于各智能体在指定环境中探索,收集每个智能体与环境交互的至少一条轨迹数据,并将各智能体对应的轨迹数据存入经验回放池; 步骤S2,分别针对指定环境中的各智能体,执行步骤S2-1到步骤S2-6,获得各智能体的个体动作价值,基于全部智能体的个体动作价值使用QMIX网络生成联合动作价值,然后进入步骤S3;其中,基于全部智能体的个体动作价值使用QMIX网络生成联合动作价值包括使用QMIX网络对全部智能体的个体动作价值进行处理,通过非线性组合将全部智能体的个体动作价值映射得到联合动作价值; 其中,步骤S2中步骤S2-1到步骤S2-6包括: 步骤S2-1,从经验回放池中提取目标智能体对应的目标轨迹数据,并对齐指定时间步的目标智能体的观测-动作值; 步骤S2-2,基于对齐后的目标智能体的观测-动作值,结合自注意力机制与全连接层生成目标智能体的自身参考状态信息的表征; 步骤S2-3,采用交叉注意力机制,根据目标智能体的自身参考状态信息的表征与指定环境中除目标智能体以外的非目标智能体的观测-动作值,生成指定环境中除目标智能体以外的非目标智能体对目标智能体的个性化信息,并将个性化信息对目标智能体进行共享; 步骤S2-4,基于预先训练好的包含MLP模块、LSTM模块和高斯分布模块的角色编码器,根据目标智能体所接收的非目标智能体共享的个性化信息与目标智能体的观测-动作值,生成代表目标智能体角色的高斯分布; 其中,所述步骤S2-4中预先训练好的包含MLP模块、LSTM模块和高斯分布模块的角色编码器包括: 采用MLP构建以目标智能体所接收的非目标智能体共享的个性化信息与目标智能体自身的观测-动作值的聚合向量为输入的MLP模块,用于进行特征提取并输出聚合向量特征表示; 采用LSTM构建以聚合向量特征表示为输入的LSTM模块,用于进行时间序列处理并生成聚合向量高维特征; 采用线性层构建以聚合向量高维特征为输入的高斯分布模块,用于生成代表目标智能体角色的高斯分布; 自输入至输出方向MLP模块、LSTM模块和高斯分布模块构成角色编码器,设计损失函数并采用损失函数对角色编码器进行训练; 步骤S2-5,采用参数化神经网络根据代表目标智能体角色的高斯分布,生成用于控制目标智能体的目标策略网络的权重参数; 步骤S2-6,通过Q网络,基于目标智能体的观测-动作值和用于控制目标智能体的目标策略网络的权重参数,输出目标智能体的个体动作价值; 其中,所述步骤S2-6包括: 将目标智能体的观测-动作值和用于控制目标智能体的目标策略网络的权重参数输入Q网络,Q网络包括输入层、GRU模块、全连接层和输出层; 通过输入层接收目标智能体的观测-动作值和用于控制目标智能体的目标策略网络的权重参数; 采用GRU模块对目标智能体的观测-动作值提取时间序列信息; 通过全连接层对经GRU模块处理后的目标智能体的观测-动作值进行特征提取,结合用于控制目标智能体的目标策略网络的权重参数生成目标智能体的个体动作价值; 采用输出层输出目标智能体的个体动作价值; 步骤S3,基于联合动作价值通过Q-learning算法更新各智能体的个体动作价值。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人南京信息工程大学,其通讯地址为:210044 江苏省南京市浦口区宁六路219号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。