Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 南开大学张建磊获国家专利权

南开大学张建磊获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉南开大学申请的专利基于强化学习的追捕策略训练方法、设备、介质及产品获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN118095340B

龙图腾网通过国家知识产权局官网在2025-06-10发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202410244720.6,技术领域涉及:G06N3/008;该发明授权基于强化学习的追捕策略训练方法、设备、介质及产品是由张建磊;张春燕;普显东设计研发完成,并于2024-03-05向国家知识产权局提交的专利申请。

基于强化学习的追捕策略训练方法、设备、介质及产品在说明书摘要公布了:本发明公开一种基于强化学习的追捕策略训练方法、设备、介质及产品,涉及强化学习和追逃博弈控制技术领域,该方法涉及拦截者、追捕者和目标之间的博弈场景。拦截者采用比例指导策略对追捕者进行拦截,而追捕者则采用基于集成价值网络结构的均化深度确定性策略梯度算法对目标进行追捕。MDPG算法引入集成价值网络结构,其中每个价值网络对应一个目标值函数,使用不同的样本概率分布独立地进行训练。目标则采用逃逸策略来躲避追捕者的追捕。通过不同训练样本,计算各追逃博弈场景中智能体之间的距离和追捕者的航向角改变量,以得到各场景中追捕者的回报值。本发明提供的MDPG算法可实现追捕策略高效自主训练,提高了智能体追捕性能和成功率。

本发明授权基于强化学习的追捕策略训练方法、设备、介质及产品在权利要求书中公布了:1.一种基于强化学习的追捕策略训练方法,其特征在于,包括:获取追捕策略中各个智能体的仿真环境相关参数;所述智能体包括追捕者、拦截者和目标;所述仿真环境相关参数包括所述智能体的初始坐标、速率、最大航程、最大航向角改变量和碰撞判断距离;设置所述拦截者采用比例指导策略对所述追捕者进行拦截;设置所述追捕者采用MDPG策略对所述目标进行追捕;所述MDPG策略为基于集成价值网络结构的均化深度确定性策略梯度算法;所述基于集成价值网络结构的均化深度确定性策略梯度算法为在传统的深度确定性策略梯度算法的基础上,引入集成价值网络结构后得到的算法;所述集成价值网络结构包括多个价值网络,每一所述价值网络对应一目标值函数;每一所述价值网络使用不同的样本概率分布,独立地抽取训练样本进行训练;设置所述目标采用逃逸策略躲避所述追捕者的追捕;根据各个智能体的仿真环境相关参数以及各所述智能体对应的策略,建立二维质点模型;随机生成多个训练样本;每一所述训练样本中各所述智能体的初始坐标均不相同;基于各所述训练样本,计算各追逃博弈场景中各所述智能体之间的距离和追捕者的航向角改变量,得到各追逃博弈场景中追捕者的回报值;所述追逃博弈场景中追捕者的回报值求取公式如下: 其中,A指代追捕者,D指代拦截者,T指代目标;dk1,k2,t表示智能体k1,k2∈{A,D,T}在t时刻的几何距离;dnorm为缩放常数,用于缩放距离;θAt为t时刻追捕者航向角改变量;Wi,i∈{1,2,3}表示各项权重;所述均化深度确定性策略梯度算法基于平均化的集成目标值函数实现时间差分更新;所述均化深度确定性策略梯度算法,基于网络随机初始化,确定每一价值网络的差异性,并使用多步回报计算目标值函数;其中,使用多步回报计算目标值函数,具体包括:根据公式计算目标函数;其中,μ′s|ωμ′是目标+动作网络,ωμ′是目标动作网络的参数;N是价值网络数量;s为状态;是网络Qi的参数;st,at,rt,st+1为给定经验序列,γ∈0,1为折扣因子,Q′i表示价值网络对应的目标网络;每一所述价值网络使用不同的样本概率分布,独立地抽取经验样本进行训练中优化所述价值网络的损失函数为: 其中,为集成网络m步TD目标,|B|为经验批容量池且B={sj,aj,rj,sj+1,j∈1,2,...|B|};其中,所述逃逸策略包括固定位置逃逸策略和远离追捕者逃逸策略。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人南开大学,其通讯地址为:300071 天津市南开区卫津路94号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。