北京航空航天大学邓岳获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉北京航空航天大学申请的专利一种自适应动态折扣因子的强化学习方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114897141B 。
龙图腾网通过国家知识产权局官网在2026-02-13发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210501034.3,技术领域涉及:G06N3/092;该发明授权一种自适应动态折扣因子的强化学习方法是由邓岳;戴兵泉;蒋星宇;章修惠;李洪珏设计研发完成,并于2022-05-09向国家知识产权局提交的专利申请。
本一种自适应动态折扣因子的强化学习方法在说明书摘要公布了:本发明公开了一种自适应动态折扣因子的强化学习方法,包括:构建动作网络、价值网络和自适应折扣因子网络;随机从经验回放池中采样轨迹数据作为训练集和验证集;固定自适应折扣因子网络的参数,确定当前奖励下的自适应折扣因子;基于训练集对动作网络和价值网络的参数进行更新;固定更新后的动作网络和价值网络的参数,基于验证集对自适应折扣因子网络的参数进行更新;对动作网络、价值网络和自适应折扣因子网络的参数进行交替迭代优化。本发明充分考虑不同动作的远视性差异,针对每一个奖励分配单独的折扣因子,提高强化学习算法的性能和鲁棒性。
本发明授权一种自适应动态折扣因子的强化学习方法在权利要求书中公布了:1.一种自适应动态折扣因子的强化学习方法,其特征在于,应用在多智能体强化学习任务“星际争霸多智能体任务”中,包括: S1、构建强化学习模型和经验回放池;所述强化学习模型包括动作网络、价值网络和自适应折扣因子网络;经验回放池存储智能体与环境交互采样的轨迹;经验回放池中存储的为时序轨迹元祖,其中,表示从初始状态直至终止状态的状态序列,表示从初始状态直至终止状态的动作序列,表示从初始状态直至终止状态的奖励序列,表示从初始状态直至终止状态的所选动作概率序列; 所述自适应折扣因子网络由深度残差网络、自注意力网络以及多层感知机组成,输入智能体之前的状态序列与动作序列,输出当前奖励回溯的自适应折扣因子; S2、初始化所述动作网络、所述价值网络和所述自适应折扣因子网络的参数; S3、随机从所述经验回放池中采样轨迹数据作为训练集和验证集; S4、根据采样的轨迹数据中各个奖励之前一定范围内所对应的折扣因子与智能体历史决策轨迹之间的联系,得到当前奖励下的自适应折扣因子;若智能体接收到奖励之前的大部分动作都是远视性的,则需要较大的折扣因子保证能够回传;若智能体接收到奖励之前的大部分动作都是短视性的,则需要较小的折扣因子防止回传过长;远视性动作包括“升级科技树”,短视性动作包括“攻击”; 固定所述自适应折扣因子网络的参数,基于所述训练集对所述动作网络和所述价值网络的参数进行更新; S5、固定更新后的所述动作网络和所述价值网络的参数,基于所述验证集对所述自适应折扣因子网络的参数进行更新; S6、判断是否达到最大迭代次数,若是,则停止迭代优化过程;若否,则返回S3继续对所述动作网络、所述价值网络和所述自适应折扣因子网络的参数进行交替优化。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京航空航天大学,其通讯地址为:100191 北京市海淀区学院路37号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励