西北工业大学许悦雷获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉西北工业大学申请的专利一种基于模糊推理树的深度强化学习策略迁移方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119250161B 。
龙图腾网通过国家知识产权局官网在2025-09-19发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411778280.9,技术领域涉及:G06N3/096;该发明授权一种基于模糊推理树的深度强化学习策略迁移方法是由许悦雷;张成;苏紫涛;陶承阳;冯伟嘉;许志强;郑爽;张兆祥;王璇;汪洪桥;郄镕凯;曾博涵;王程航;唐浩宸设计研发完成,并于2024-12-05向国家知识产权局提交的专利申请。
本一种基于模糊推理树的深度强化学习策略迁移方法在说明书摘要公布了:为解决当前追逃博弈智能决策中使用深度强化学习算法得到的神经网络可解释性和可调试性差,难以满足实际部署要求的问题,本发明提出一种基于模糊推理树的深度强化学习策略迁移方法。本发明以经过充分训练的待迁移网络为指导,通过智能优化算法对模糊推理树进行训练使其与训练好的待迁移网络在相同的输入下具有相同的输出,即使得模糊推理树学习到了状态到动作的映射关系,具有与深度强化学习的待迁移网络相同的决策能力,从而达到将深度强化学习算法中蕴含在神经网络内的规则抽取并迁移到模糊推理树的目的。本发明在不改变决策效能的前提下,提升了决策指令的生成速度,且解决了追逃博弈信息不完全可知、决策方法的可调试性和可解释性差的问题。
本发明授权一种基于模糊推理树的深度强化学习策略迁移方法在权利要求书中公布了:1.一种基于模糊推理树的深度强化学习策略迁移方法,用于飞行器控制、自动驾驶和工业机器人领域的追逃博弈智能决策任务中用于生成控制指令的策略网络的决策能力的迁移,以提高策略网络的可解释性和可调试性;其特征在于,包括步骤: 步骤1:使用深度强化学习算法训练待迁移网络,所述待迁移网络为所述深度强化学习算法的策略网络或用于表征策略的价值网络; 步骤2:对需要进行决策优化的追逃博弈智能决策任务的状态空间进行等间隔分割并均匀采样,得到符合均匀分布的状态数据的样本; 步骤3:构建最优决策数据集,并将其划分为训练集和测试集;所述最优决策数据集由数据和标签构成,所述数据为步骤2得到的状态数据的样本,标签为与所述样本一一对应的最优动作,所述最优动作基于步骤1训练好的待迁移网络生成的、用于描述最优动作分布的参数获取; 步骤4:根据所述追逃博弈智能决策任务构建模糊推理树,所述模糊推理树包括多个模糊推理单元,各模糊推理单元的连接关系根据所述追逃博弈智能决策任务中追逐方运动状态、逃逸方运动状态、逃逸方内部状态和追逃双方相对运动状态与决策指令之间的关系构建;所述模糊推理树的输入为状态信号,输出为决策指令;所述状态信号包括追逐方运动状态、逃逸方运动状态和逃逸方内部状态;所述决策指令包括逃逸方的机动参数、假目标诱饵投放决策和假目标诱饵投放参数;所述追逐方运动状态包括追逐方的位置、速度和姿态;所述逃逸方运动状态包括逃逸方的位置、速度和姿态;逃逸方内部状态包括剩余假目标诱饵数量和控制面状态;所述追逃双方相对运动状态包括追逃双方相对距离、视线偏角和视线倾角; 步骤5:使用智能优化算法并利用所述训练集对所述模糊推理树进行迁移训练,利用所述测试集对所述模糊推理树的拟合性能进行验证; 步骤6:利用至少50轮次完整决策后的平均折扣累计回报,评估步骤5训练好的模糊推理树的决策性能,若模糊推理树的平均折扣累计回报大于等于步骤1训练好的待迁移网络的平均折扣累计回报的90%,则模糊推理树的决策性能评估合格,策略迁移完成,利用当前模糊推理树替代步骤1训练好的待迁移网络,流程结束;否则,返回步骤5;若经10次及以上迁移训练后模糊推理树的决策性能仍不合格,则进入步骤7; 步骤7:对步骤4构建的模糊推理树的结构进行优化,增加其复杂度以提高其决策性能的上限,再返回步骤5。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人西北工业大学,其通讯地址为:710072 陕西省西安市碑林区友谊西路127号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励