Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 南京理工大学吴益飞获国家专利权

南京理工大学吴益飞获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉南京理工大学申请的专利优化经验存储与经验再利用的多智能体强化学习方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116205273B

龙图腾网通过国家知识产权局官网在2025-09-16发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202111440668.4,技术领域涉及:G06N3/047;该发明授权优化经验存储与经验再利用的多智能体强化学习方法是由吴益飞;赵鹏;陈庆伟;郭健;李胜;樊卫华;成爱萍;郑瑞琳;梁皓设计研发完成,并于2021-11-30向国家知识产权局提交的专利申请。

优化经验存储与经验再利用的多智能体强化学习方法在说明书摘要公布了:本发明公开了一种优化经验存储与经验再利用的多智能体强化学习方法,包括:构建了基于LRULeastrecentlyused,最近最少使用机制进行经验存储的经验缓冲池;设计基于网络权值共享的多智能体经验收集方法;采用一种基于经验优先级的混合采样方法来为较高优先级数据提供较高的检索率,并采用B+树数据结构对标记好优先级的经验进行存储。与传统方法相比,本发明提出的方法在充分降低样本数据关联度的基础上进一步丰富了样本种类,同时具有高效的经验样本检索率和良好的生物可解释性,对样本噪声有更强的鲁棒性,智能体面对复杂的环境和任务时表现更好。

本发明授权优化经验存储与经验再利用的多智能体强化学习方法在权利要求书中公布了:1.一种优化经验存储与经验再利用的多智能体强化学习方法,其特征在于,所述方法包括以下步骤: 步骤1,初始化当前Q网络的所有参数ω,目标Q网络的所有参数ω′=ω,以及经验池的容量N,设置批量梯度下降的样本数m以及目标Q网络的参数更新时间步长T; 步骤2,进行基于多线程的多智能体经验收集:通过网络权值共享,使用多线程技术部署多个智能体Agent同时和环境进行交互,在每个时间点上,不同线程中的Agent,依概率采取不完全相同的探索策略从环境中获取经验样本; 步骤3,计算经验样本时间差分误差TDerror的绝对值,并将该条经验插入到以TDerror作为索引的全局共享经验池中,同时基于最近最少使用机制更新全局共享经验池中所有经验的时间属性值; 步骤4,在更新当前训练策略时,从全局共享经验池中采用混合采样方法采样m个经验样本,并依据最近最少使用机制对该经验池中经验的时间属性进行更新;其中,m为设定批量梯度下降的样本数值; 步骤5,利用采样得到的m个经验样本对当前Q网络进行训练,本次训练结束后,重新计算经验池中所有经验样本的TDerror,对全局共享经验池中经验的优先级进行更新,并判断训练步数是否达到预设的最大值,若否,返回步骤3,否则结束流程。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人南京理工大学,其通讯地址为:210094 江苏省南京市玄武区孝陵卫200号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由AI智能生成
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。