北京航空航天大学龚光红获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉北京航空航天大学申请的专利一种基于离在线训练结合的兵力行为决策模型加速构建方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115062761B 。
龙图腾网通过国家知识产权局官网在2025-08-05发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210642647.9,技术领域涉及:G06N3/045;该发明授权一种基于离在线训练结合的兵力行为决策模型加速构建方法是由龚光红;韩宏伟;董力维;李妮设计研发完成,并于2022-06-08向国家知识产权局提交的专利申请。
本一种基于离在线训练结合的兵力行为决策模型加速构建方法在说明书摘要公布了:本发明公开了一种基于离在线训练结合的兵力行为决策模型加速构建方法,属于计算机生成兵力对抗决策技术领域。提出一种基于专家样本重用机制进行离线数据集构建的方法,支撑后续的离线行为克隆和在线强化学习过程;提出一种离线预训练机制,利用专家交互数据集,结合行为克隆算法,避免与底层仿真环境的交互,得到一个表现较优秀的初始策略;提出基于专家示例样本增强机制的在线训练方法,定期进行策略评估,在线强化学习在初始策略内涵知识的基础上完成策略提升。本发明的技术方案,能够有效加快模型调优进程,快速得到预期水平的兵力行为决策模型,同时纠正行为克隆算法可能存在的级联误差问题。
本发明授权一种基于离在线训练结合的兵力行为决策模型加速构建方法在权利要求书中公布了:1.一种基于离在线训练结合的兵力行为决策模型加速构建方法,其特征在于:所述方法具体包括如下步骤: S1:基于专家样本重用机制进行离线数据集构建,将不同类型的策略与仿真环境的交互数据进行集成,形成支持后续离线训练的高质量数据集,其中,在面向具体兵力决策任务时,对基于规则推理、流程图、有限状态机不同类型的专家策略与仿真环境进行交互,交互后产生带奖励信息的交互数据,基于后续不同范式的离线与在线学习对所述交互数据进行针对性的重构和处理,形成离线模仿学习的“行为一动作”专家数据集,同时将带奖励的专家数据集作为在线深度Q网络DQN的样本池的永久性子集,在线强化学习的同时从所述DQN策略的所述交互数据和所述专家数据集中进行采样,实现专家交互数据的持续保留; S2:离线预训练步骤,具体包括:利用行为克隆BC算法,基于已有的专家示例数据进行离线的监督式训练,在离线预训练阶段,避免与底层仿真环境的交互,离线预训练后得到一个符合预设条件的初始策略,其中所述预设条件与策略的表现相关; S3:基于专家示例样本增强机制的在线训练,利用异策略的DQN能够充分利用任意行为策略交互数据的特点,结合所述专家示例数据重用机制,将专家数据一直作为经验样本池的子集来进行使用,同时提出一种专家数据集增强机制,在DQN在线训练的过程中,定期进行策略评估,根据策略达到的不同提升阈值,将不同比例的在线DQN交互数据集存入所述专家数据中。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京航空航天大学,其通讯地址为:100191 北京市海淀区学院路37号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。