Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 西北工业大学扈晓翔获国家专利权

西北工业大学扈晓翔获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉西北工业大学申请的专利一种基于强化学习的多智能体追逃博弈方法及设备获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115952729B

龙图腾网通过国家知识产权局官网在2025-07-11发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211552727.1,技术领域涉及:G06F30/27;该发明授权一种基于强化学习的多智能体追逃博弈方法及设备是由扈晓翔;刘帅政;肖冰;张大巧设计研发完成,并于2022-12-06向国家知识产权局提交的专利申请。

一种基于强化学习的多智能体追逃博弈方法及设备在说明书摘要公布了:本发明公开一种基于强化学习的多智能体追逃博弈方法及设备,涉及人工智能技术领域。本发明通过自博弈的方式实现多智能体追逃博弈的策略生成,基于多智能体追逃的博弈数据,利用模糊学习和Q学习对于环境的探索和利用,能够自主生成最优博弈策略。并且,本发明采用模糊的方法对状态动作空间进行了合理划分,根据规则产生的纳什均衡解具有全局最优性和鲁棒性,由当前状态的邻接状态组成的局部Q值表,避免由于连续状态空间引起的维度灾难问题。

本发明授权一种基于强化学习的多智能体追逃博弈方法及设备在权利要求书中公布了:1.一种基于强化学习的多智能体追逃博弈方法,其特征在于,包括: 对当前追逃双方的相对位置状态进行模糊化处理,确定所述相对位置状态在强化学习设备中所处的模糊状态得到当前模糊状态变量; 根据所述当前模糊状态变量和已训练完成的关联函数,得到最大Q值函数; 基于所述最大Q值函数,在所述当前模糊状态变量下按照最优值选择输入状态变量,得到追逃博弈训练模型在当前状态下的最优输入状态变量策略; 利用去模糊化算法对所述最优输入状态变量策略进行去模糊化处理,得到最终的实际控制量; 所述关联函数的训练过程包括: 选取追逃双方的追逃博弈训练模型状态变量,并将所述追逃博弈训练模型状态变量以模糊集的形式进行存储;其中,通过三角型隶属度函数将每一个状态的取值空间划分为多个三角函数的叠加组合,将连续型变量以模糊集的形式进行存储;追逃博弈训练模型为: 式中,t为当前时刻,ξt为当前时刻的状态变量,为当前时刻状态变量ξt的微分,F*为运动状态动力学模型,G*为追击方的输入状态动力学模型,K*为逃逸方的输入状态动力学模型,Up为追击方的输入状态变量,Ue为逃逸方的输入状态变量; 根据当前时刻的所述追逃博弈训练模型状态变量构建当前时刻的所述追逃博弈训练模型状态变量及其邻接状态变量的局部关联函数;所述局部关联函数即为局部Q值表; 给出模糊规则中关联函数的更新规则; 基于所述更新规则确定时间差分误差; 基于所述时间差分误差更新所述局部关联函数得到下一时刻的Q值函数; 以所述下一时刻的Q值函数作为模糊推理设备的输出,采用梯度下降法更新所述模糊推理设备的参数; 根据所述局部Q值表和ε-greedy策略选择输出变量结果值; 采用加权平均法对输入的状态变量进行解模糊化操作,得到下一时刻的动作输出; 将所述动作输出输入追逃博弈训练模型得到下一时刻的模型状态变量; 基于给出的模糊规则中局部关联函数的更新规则获取下一时刻的回报; 返回执行“选取追逃双方的追逃博弈训练模型状态变量,并将所述追逃博弈训练模型状态变量以模糊集的形式进行存储”,直到模糊规则中的局部关联函数收敛。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人西北工业大学,其通讯地址为:710072 陕西省西安市友谊西路127号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。