中国人民解放军国防科技大学王锐获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉中国人民解放军国防科技大学申请的专利一种基于深度强化学习的多目标资源分配方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119740773B 。
龙图腾网通过国家知识产权局官网在2025-10-10发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411596978.9,技术领域涉及:G06Q10/0631;该发明授权一种基于深度强化学习的多目标资源分配方法是由王锐;李文桦;罗天羽;刘威;黄生俊;郑楠;李凯文;史志超;黄旭程设计研发完成,并于2024-11-11向国家知识产权局提交的专利申请。
本一种基于深度强化学习的多目标资源分配方法在说明书摘要公布了:本发明公开了一种基于深度强化学习的多目标资源分配方法,包括步骤:实时场景信息获取与处理;资源分配多目标优化数学模型构建:包括决策变量表示,目标函数构建,约束条件设计;基于深度强化学习的多目标优化设计;结合基于深度强化学习的多目标优化算法求得的最优资源分配方案,为尽可能多的来袭目标分配不同时段的雷达和发射车组合进行目标拦截,从而实现最大化成功拦截概率、最小化拦截成本以及最高的资源利用率的目的。本发明优化目标涵盖提高拦截成功率、降低资源消耗等方面,同时考虑约束条件,形成混合整数线性模型,以实现多目标间的最优平衡;对强化学习方法进行了修改和改进,更准确地满足停止条件。
本发明授权一种基于深度强化学习的多目标资源分配方法在权利要求书中公布了:1.一种基于深度强化学习的多目标资源分配方法,其特征在于,包括以下步骤: 第一步:实时场景信息获取与处理:首先通过终控雷达获取场景信息;其次,根据场景信息计算目标轨迹以及飞行时间并根据预设定的控制时间间隔对轨迹进行离散化;随后,判断轨迹与雷达检测区域和发射车防空区域之间的位置关系,从而计算每个目标可采用的雷达与发射车组合与对应的命中概率; 第二步:资源分配多目标优化数学模型构建:包括:决策变量表示,目标函数构建,约束条件设计; 第三步:基于深度强化学习的多目标优化设计:构建由“目标-雷达-发射车”三类节点构成的对抗管理基础模型,对资源分配问题进行数学建模;根据资源分配问题的具体特点,构建基于多头注意力机制的深度神经网络模型;采用分解策略和基于领域的参数迁移策略对多目标组合优化问题进行建模,首先采用分解策略将多目标优化问题分解为多个子问题,每个子问题都基于指针网络模型建模为一个神经网络,然后根据基于邻域的参数迁移策略和强化学习训练算法对所有子问题的神经网络参数进行协同优化,从而实现多目标资源分配方案生成; 第四步:结合基于深度强化学习的多目标优化算法求得的最优资源分配方案,为尽可能多的来袭目标分配不同时段的雷达和发射车组合进行目标拦截,从而实现最大化成功拦截概率、最小化拦截成本以及最高的资源利用率的目的; 其中,构建由“目标-雷达-发射车”三类节点构成的对抗管理基础模型,在此基础上对资源分配问题进行数学建模,包括: 针对资源分配方案生成问题,模型的参数化表示如下,在资源分配问题中,节点的特征由其地理位置特征定义,即其x坐标和y坐标,解代表资源分配方案,n为分配方案最大数量;为了对资源分配问题进行求解,设计参数为的深度神经网络模型,该模型以资源分配问题的节点位置作为输入,输出方案,该模型策略定义为,实现到的映射: ; 具体而言,给定一个资源分配优化问题实例s,定义由参数参数化的深度神经网络模型,该模型产生条件概率分布,解通过从条件概率分布中采样得到; 根据资源分配问题的具体特点,构建基于多头注意力机制的深度神经网络模型,包括: 对于最大化拦截概率,使用回合制的REINFORCE算法来对上述深度神经网络模型进行训练,该算法使用基于回合制的蒙特卡洛方法来计算奖励值,即一直执行该策略,直到构造得到一个完整解,此时计算总的目标函数作为奖励,基于该定义,策略参数通过state-action-reward来不断更新; 具体地,给定动作和相应的奖励值损失函数,基于REINFORCE算法,通过梯度下降来更新模型的参数: ; 资源分配方案的构造从概率分布中采样大量动作,由于采样的不确定性以及每个回合中存在的采样过程,不同回合得到的奖励存在方差,使策略参数的梯度下降方向产生冲突,影响收敛速度;为了减少策略参数更新的方差,引入基线值来更新策略梯度公式: 用来评价策略的平均表现,如果当前策略的表现优于该平均水平为负数,则该策略受到正向激励,如果当前策略的表现劣于该平均水平为正数,则该策略受到负向激励; 给定一个资源分配问题实例s,定义为利用基准策略对该问题实例s进行求解得到的目标函数,求解过程中对概率分布的采样方式为贪婪策略:基准策略在每个训练周期结束时在验证集上进行策略评价,一旦当前策略优于当前的基准策略,则用当前模型替换基准策略,从而使得基准策略为训练至今最优的模型,即当前最优的策略表现,通过该基准表现对策略梯度更新进行优化; 所述分解策略为使用WeightedSum方法、Chebyshev方法或基于惩罚的边界交叉方法对多目标优化问题进行分解。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中国人民解放军国防科技大学,其通讯地址为:410073 湖南省长沙市开福区德雅路109号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励