Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 积分商城 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 中国人民解放军空军工程大学付强获国家专利权

中国人民解放军空军工程大学付强获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉中国人民解放军空军工程大学申请的专利基于深度强化学习的智能体任务分配方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114638339B

龙图腾网通过国家知识产权局官网在2025-10-28发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210234672.3,技术领域涉及:G06F30/27;该发明授权基于深度强化学习的智能体任务分配方法是由付强;刘家义;王刚;范成礼设计研发完成,并于2022-03-10向国家知识产权局提交的专利申请。

基于深度强化学习的智能体任务分配方法在说明书摘要公布了:公开一种基于深度强化学习的智能体任务分配方法,包括下列步骤:强弱智能体架构设计;协同行为的马尔科夫决策过程设计;阶段性奖励机制设计;智能体网络结构设计;多头注意力机制与目标选择设计。本发明提出“一强带N弱”的多智能体结构,能够降低系统复杂度,消除多智能体系统在处理复杂问题时容易出现交互冲突的短板;通过多头注意力机制和阶段性奖励机制,有效提高了训练的效率和稳定性。

本发明授权基于深度强化学习的智能体任务分配方法在权利要求书中公布了:1.基于深度强化学习的智能体任务分配方法,其特征在于,具体包括下列步骤: Stepl.强弱智能体架构设计 在一定时间内,将全局态势,简称为“状态”,作为计算能力较强的强智能体的输入,获得作战任务;基于战术规则的弱智能体根据自身态势对强智能体的作战任务进行分解,形成需要执行的“动作”,进而输出对应动作的具体指令到仿真环境中;弱智能体根据指令做出决策后,整个“仿真环境”的态势会随之发生改变,此时会产生“环境数据”;产生的“环境数据”会根据强智能体所需要的数据结构转化为“状态”作为强智能体的输入; Step2.协同行为的马尔科夫决策过程设计 设马尔可夫过程MDP四元素S,A,r,p:状态S,动作A,奖励函数r,转移概率p;马尔可夫性:pstj|s0,a0,...,st,at=pstj|st,at;策略函数π:S→A;st为t时刻的状态,at为t时刻的动作; 优化目标:求解最优的策略函数π*,最大化期望累积奖励值: 式中,γ、rt、T分别表示奖励衰减系数、t时刻的奖励、总时间,上角标t表示幂指数; 在pstj|st,at未知情况下求解马尔科夫决策过程,核心思路是采用时间差分算法估计动作-值函数Qπs,a: Qπst,at←Qπst,at+α[rs,a+γmaxst+1,a-Qs,a]3 π′s=argmaxs,a4 式中,s泛指状态,a泛指动作,rs,a表示在t时刻状态s情况下执行动作a获得的奖励,π′s表示在状态s情况下的最优策略,argmax表示执行动作a的最大值自变量点集; Step3.阶段性奖励机制设计 阶段性奖励机制采用拆解任务目标,阶段性给予奖励值的方法,引导神经网络找到取得胜利的策略;在此基础上,根据实际任务中不同的目标对奖励函数进行优化设计,将最小化拦截资源消耗也作为一项奖励指标,增大全局收益最大化对于智能体收益影响的效果; Step4.智能体网络结构设计 态势输入数据分为四类:第一类为红方基地状态;第二类为红方雷达状态和拦截器状态;第三类为蓝方单位状态;第四类为可被红方攻击的蓝方单位状态;每类数据的单位数量不固定,随着战场形势而变化; 每类态势数据各自通过两层全联接-线性整流函数fc-relu进行特征提取,然后将所有特征向量进行合并,特征向量为提前定义好的;通过concat函数连接合并多个特征向量,形成数组,再通过一层fc-relu及门控循环单元GRU生成全局特征;GRU引入重置门和更新门的概念,修改网络中隐藏状态的计算方式,能够解决神经网络存在的梯度消失问题; 神经网络在决策时既要考虑当前状况,也要考虑历史信息,需要通过GRU与全局态势不断交互,选择保留或遗忘信息;将全局特征与可选择的蓝方单位特征向量通过注意力机制运算,选择拦截单位;各个拦截单位再根据自身状态结合提前设计好的规则库通过注意力运算选择拦截时机和敌方单位; Step5.多头注意力机制与目标选择设计 将决策动作进行多头处理作为网络的输出,即将动作分为动作主语、动作谓语、动作宾语; 在选择拦截目标时,神经网络需要在局部区域重点关注一些重要目标;将每个火力单元状态和来袭目标的特征向量分别使用加性模型实现注意力机制运算;“每个火力单元状态和来袭目标的特征向量”都从“状态”数据中获得,而“状态”数据是由“仿真环境数据”转换而来; 定义X=[x1,...,xN]为N个输入信息形成的向量,xi为当前可选择的第i个来袭目标,i=1,2,...,N,首先计算在给定查询向量q和X下,选择第i个目标的概率为at,ai被称为注意力分布,则定义ai为 式中,sxi,q为注意力打分函数,表示在查询向量q前提下选择第i个来袭目标的得分,得分越高,第i个来袭目标被选择的概率越大,计算模型选择加性模型: sxi,q=vTtanhWxi+Uq7式中,查询向量q为每个火力单元的特征向量,W和U为第一和第二可训练的神经网络参数,v为全局态势特征向量,即为带条件的注意力机制,使得全局态势信息参与计算,tanh为双曲正切函数;得到每个火力单元关于每个目标的注意力分值,分别对分值向量的每一位进行sigmoid采样,最后产生总体决策。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中国人民解放军空军工程大学,其通讯地址为:710051 陕西省西安市灞桥区长乐东路甲字1号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。