Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 中国人民解放军国防科技大学陈少飞获国家专利权

中国人民解放军国防科技大学陈少飞获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉中国人民解放军国防科技大学申请的专利一种增强多智能体策略学习稳定性的方法和装置获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116401518B

龙图腾网通过国家知识产权局官网在2025-09-16发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310385663.9,技术领域涉及:G06F18/20;该发明授权一种增强多智能体策略学习稳定性的方法和装置是由陈少飞;李鹏;张煜;苏炯铭;刘鸿福;吉祥;袁唯淋;胡振震;陈佳星设计研发完成,并于2023-04-11向国家知识产权局提交的专利申请。

一种增强多智能体策略学习稳定性的方法和装置在说明书摘要公布了:本申请涉及一种增强多智能体策略学习稳定性的方法和装置,所述方法将单智能体算法中价值平均的思想扩展到多智能体协作环境中,以多智能体值分解算法为基础,在迭代优化过程中切换使用Max和Mellowmax两种算子,有效发挥Max算子探索性强和Mellowmax算子稳定性好的特点,在切换至Max算子时通过对多个目标网络估计值的平均来降低目标近似误差的方差,进而缓解高估造成的学习不稳定。在移动机器人自主避障任务中,采用本方法显著降低了原始值分解方法的高估误差,并降低了目标近似误差方差增强了策略稳定性,大幅度降低了策略学习的不稳定导致机器人在合作避障过程会产生持续错误动作或者机器人导致的硬件损坏的现象。

本发明授权一种增强多智能体策略学习稳定性的方法和装置在权利要求书中公布了:1.一种增强多智能体策略学习稳定性的方法,其特征在于,所述方法包括: 将多机器人合作避障任务建模成一个多智能体非集中式部分可观察的马尔科夫决策过程,每个机器人的信息包括:局部观测信息、动作以及系统状态; 选择任意一种在优化过程中用到Max算子的值分解多智能体强化学习算法,并对混合网络和每个机器人的策略网络的参数进行随机初始化; 将K个目标混合网络参数初始值设置为混合网络参数;将L个目标策略网络的参数初始值设置为策略网络的参数; 初始化经验回放池、探索率以及折扣因子; 根据所述经验回放池、所述探索率以及所述折扣因子,以每个所述机器人的当前局部观测信息和前一时刻的动作为输入,对所述值分解多智能体强化学习算法进行训练,在迭代优化过程中采用Max算子和Mellowmax算子切换的方式计算TD目标,在切换至Max算子时采用平均价值方式对TD目标进行优化,直到达到预设条件,停止迭代优化,得到每个机器人的最优策略; 每个所述机器人采用对应的所述最优策略完成所述多机器人合作避障任务。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中国人民解放军国防科技大学,其通讯地址为:410073 湖南省长沙市开福区德雅路109号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。