电子科技大学赵太银获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉电子科技大学申请的专利一种基于参数稀疏共享的异构多智能体强化学习方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN117236377B 。
龙图腾网通过国家知识产权局官网在2025-09-16发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202311108823.1,技术领域涉及:G06N3/0442;该发明授权一种基于参数稀疏共享的异构多智能体强化学习方法是由赵太银;许毅;罗光春;王勇;李徐成;孙宇栋设计研发完成,并于2023-08-30向国家知识产权局提交的专利申请。
本一种基于参数稀疏共享的异构多智能体强化学习方法在说明书摘要公布了:本发明涉及多智能体协同技术,具体涉及一种基于参数稀疏共享的异构多智能体强化学习方法。包括训练多种智能体模型和智能体决策两个部分,在训练多智能体模型过程中,初始化一个过参数化的网络作为所有智能体共享的网络,训练共享网络得到基础网络参数;基于基础网络参数,通过二值掩码获取各智能体子网络的模型表示。在智能体决策过程中,各智能体获取自身观察信息,并将自身的观察信息输入到对应子网络中,获取子网络的输出作为决策依据。与现有技术相比,本发明采用稀疏共享机制,通过二值掩码获取各智能体子网络的模型表示,可以有效降低传统智能体模型参数共享导致的负迁移现象,提高多智能体系统的性能。
本发明授权一种基于参数稀疏共享的异构多智能体强化学习方法在权利要求书中公布了:1.一种基于稀疏共享的异构多智能体强化学习方法,包括: 步骤一、训练多智能体模型 S1、初始化一个过参数化的网络,以作为所有智能体的共享网络; S2、统一各类型智能体观察向量维度,基于统一维度后的观察向量维度,采用端到端训练方式训练共享网络,得到最优共享网络参数;其详细过程包括: S2.1、统一各类型智能体观察向量维度; S2.2、将各智能体统一维度后的观察向量输入至共享网络,计算各智能体每个动作对应的Q值,选择各智能体最大Q值对应动作; S2.3、将各智能体最大Q值对应动作组合在一起,得到联合动作;根据动作合集计算出团队Q值; S2.4、系统根据团队Q值构建训练损失函数,基于训练损失函数反向更新共享网络参数;训练损失函数计算公式如下: 其中b是重放缓冲区采样的大小;o为智能体联合观察,联合观察为所有智能体局部观察的合集o=o1,o2...on,其中oi是智能体i的局部观察;u为智能体联合动作,联合动作为所有智能体动作的合集u=u1,u2...un,其中ui是智能体i的动作;s为绝对全局状态,由强化学习的模拟环境系统提供,包含所有智能体的状态信息以及环境信息;θ为估计网络的参数,ytot是目标网络的输出;ytot的计算方式如下: ytot=r+γmaxu′Qtoto′,u′,s′;θ- 其中γ是折扣因子,设置为0.99,r为团队奖励,o′为下一步的联合观察,u′为下一步的联合动作,s′为下一个全局状态,θ-为目标网络的参数; S3、将最优共享网络参数作为基础网络参数,根据基础网络参数生成各智能体的子网络;单独训练每种类型智能体子网络,得到各智能输出Q值最大的动作,用于组合成联合动作; 步骤二、利用训练后的多智能体模型进行决策,以提高智能体决策的准确性。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人电子科技大学,其通讯地址为:611731 四川省成都市高新区(西区)西源大道2006号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励