Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
专利交易 积分商城 国际服务 IP管家助手 科技果 科技人才 商标交易 会员权益 需求市场 关于龙图腾 更多
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 中国电子科技集团公司信息科学研究院胡昆获国家专利权

中国电子科技集团公司信息科学研究院胡昆获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉中国电子科技集团公司信息科学研究院申请的专利基于强化学习的多智能体协同对抗决策方法及装置获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN117273057B

龙图腾网通过国家知识产权局官网在2026-02-13发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202311082732.5,技术领域涉及:G06N3/008;该发明授权基于强化学习的多智能体协同对抗决策方法及装置是由胡昆;金丹;饶梦彬设计研发完成,并于2023-08-25向国家知识产权局提交的专利申请。

基于强化学习的多智能体协同对抗决策方法及装置在说明书摘要公布了:本公开涉及深度强化学习领域,提供一种基于强化学习的多智能体协同对抗决策方法及装置,方法包括:获取当前状态信息;将当前状态信息输入预设的强化学习算法训练得到的决策智能体中得到决策结果;强化学习算法包括:获取决策智能体的观测信息;对观测信息和权重向量编码得到权重与状态特征协同编码,设计目标奖励函数;多状态价值重采样,结合整体轨迹Q值确定最优增广元组序列;基于最优元组序列确定策略网络的损失函数和值网络的总渐进式包络损失函数,对策略网络和值网络进行参数更新;基于目标奖励函数,利用参数更新后的网络对权重与状态特征协同编码进行决策解码输出决策结果。本公开可使智能体即时做出决策,有效提高决策结果的准确性。

本发明授权基于强化学习的多智能体协同对抗决策方法及装置在权利要求书中公布了:1.一种基于强化学习的多智能体协同对抗决策方法,其特征在于,所述决策方法包括: 获取当前状态信息,所述当前状态信息包括我方自身状态信息、友方状态信息、敌方状态信息; 将所述当前状态信息输入利用预设的强化学习算法训练得到的决策智能体中,得到决策结果,所述决策结果包括执行移动动作、攻击动作、保持静止中的任意一者; 所述预设的强化学习算法包括以下步骤: 获取决策智能体的观测信息,所述观测信息包括所述决策智能体的自身状态信息、友方状态信息、敌方状态信息; 利用编码权重矩阵对所述观测信息和权重向量进行编码,得到权重与状态特征协同编码,并设计目标奖励函数; 基于所述权重向量所在的权重空间进行多状态价值重采样,结合所述权重与状态特征协同编码对应的整体轨迹Q值,确定所述权重与状态特征协同编码对应的最优增广元组序列; 基于所述最优增广元组序列分别确定策略网络的损失函数和值网络的总渐进式包络损失函数,基于所述策略网络的损失函数和所述总渐进式包络损失函数,对所述策略网络和所述值网络进行参数更新; 基于所述目标奖励函数,利用参数更新后的所述策略网络和所述值网络对权重与状态特征协同编码进行决策解码,输出决策结果; 所述基于所述权重向量所在的权重空间进行多状态价值重采样,结合所述权重与状态特征协同编码对应的整体轨迹Q值,确定所述权重与状态特征协同编码对应的最优增广元组序列,包括: 根据下式6计算所述整体轨迹Q值,其中,Qπs,a表示所述整体轨迹Q值,π为动作策略分布,γ为衰减系数,t表示时刻,Rt表示t时刻的奖励函数,s0表示所述决策智能体与环境互动时在t=0时刻的初始状态,a0表示所述决策智能体与环境互动时在t=0时刻的动作,表示数学期望: 对权重向量ω所在的权重空间Ω进行n次均匀随机采样,得到n个权重向量ω,将n个权重向量ω分别与状态转移序列组合,得到m×n×K个状态元组st,at,Rt,st+1,ω作为增广元组序列,其中,m表示奖励向量的维数,K表示状态转移序列的个数,st表示所述决策智能体与环境互动时在t时刻的初始状态,at表示所述决策智能体与环境互动时在t时刻的动作,st+1表示所述决策智能体与环境互动时在t时刻交互后返回的状态; 对于任意一个给定的转移元组序列st,at,Rt,st+1,在采样得到的n个权重向量ω中计算最优权重向量ω*=argmaxωωTQst+1,at,ω,得到对应的最优增广元组序列st,at,Rt,st+1,ω*,其中,Qst+1,at,ω表示st+1,at,ω的Q值; 所述值网络的总渐进式包络损失函数表示为下式9: 其中,Lθ表示所述值网络的总渐进式包络损失函数,表示权衡权重,k为迭代次数,τ为延缓系数,为值网络的训练初期损失函数且表示为下式10,为值网络的训练后期损失函数且表示为下式11,其中,y1和y2均为中间变量且分别表示为下式12和下式13:

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中国电子科技集团公司信息科学研究院,其通讯地址为:100041 北京市石景山区实兴大街金府路30号院4号楼;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。