Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 国网吉林省电力有限公司;国网吉林省电力有限公司电力科学研究院;东北电力大学;吉林省电力科学研究院有限公司孙勇获国家专利权

国网吉林省电力有限公司;国网吉林省电力有限公司电力科学研究院;东北电力大学;吉林省电力科学研究院有限公司孙勇获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉国网吉林省电力有限公司;国网吉林省电力有限公司电力科学研究院;东北电力大学;吉林省电力科学研究院有限公司申请的专利一种基于MADDPG算法的映射运行方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115759370B

龙图腾网通过国家知识产权局官网在2025-09-16发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211383630.2,技术领域涉及:G06Q10/04;该发明授权一种基于MADDPG算法的映射运行方法是由孙勇;李宝聚;刘闯;王佳蕊;李德鑫;陈厚合;王尧;胡枭;王惠锋;孟祥东;吕项羽;王伟;李成钢;张家郡;冷俊;高松;刘畅;张海锋;庄冠群设计研发完成,并于2022-11-07向国家知识产权局提交的专利申请。

一种基于MADDPG算法的映射运行方法在说明书摘要公布了:本发明属于深度强化学习领域,公开了一种基于MADDPG算法的映射运行方法,为了实现分散式调控过程中,对于差异性节点的调峰及限制过响应,提高系统安全性与经济性,引入MADDPGMulti‑AgentDeepDeterministicPolicyGradient的深度强化学习训练方法对辅助参数加以训练;选用多智能体算法以模拟多个参与者与环境的交互过程;然后构建Actor‑Critic架构,针对每个智能体建立值函数,形成合理的智能体训练和应用机制;随后对经验回放池、深度连接层和目标网络等进行进一步设置并融合虚拟遗憾最小化思想对稀疏奖励下的智能体训练产生引导作用;最后使用代价函数估计其他智能体策略,并针对策略集合进行优化,以实现多个智能体在训练阶段结束后,能够各自在应用状态下给出下一次最佳动作策略。

本发明授权一种基于MADDPG算法的映射运行方法在权利要求书中公布了:1.一种基于MADDPG算法的映射运行方法,其特征在于,包括以下步骤: S1将多网微系统模型映射在MADDPG多智能体环境中; S2构建Actor-Critic构架:将Value-Based单步更新和Policy-Based连续动作结合; S3构建Actor更新方法:将梯度公式扩展到确定性策略针对每个智能体建立主网络,并构建经验池,存放过往经验以提供给智能体用以后续训练; S4构建Critic更新方法:对N个智能体分别建立策略网络、目标策略网络、价值网络和目标价值网络共计4N个智能体数量的网络; S5构建对其他智能体策略的估计:对每个智能体维护N-1个策略逼近函数,其逼近代价为对数代价函数,并且加上策略的熵; 步骤S4中,目标网络分为目标策略网络μ'和目标价值网络Q',分别使用主网络中的策略网络参数和价值网络参数进行初始化,具体为: S201策略网络通过智能体的累积期望奖励Jθi进行网络函数的更新,梯度策略更新公式1和公式2: 其中,Jθi为智能体的累积期望奖励,为对状态s和动作ai的联合期望,即当状态s从策略π下的稳态状态分布ρπ中采样,动作ai由智能体i的策略πθ生成时的期望,为智能体i的累积折扣奖励,γt为折扣因子的t次方,用于对未来奖励进行衰减,ri,t为第i个智能体在时刻t获得的即时奖励,为网络参数为θi的策略网络预期回报梯度,用于更新策略网络参数; 为在当前状态x和动作集合{a1,…,aN}下主价值网络输出的动作值函数关于动作ai的梯度;为策略网络给出的动作关于θi的梯度,Ex,a~D为对从经验回放池D中采样的状态x和动作a求期望,ai=μioi为策略网络μi根据观测量oi生成的动作; S202价值网络通过最小化TD误差来更新网络参数,更新公式3: 其中,Lθi为价值网络的损失函数,用于评估价值网络估计的价值函数与实际价值函数的误差;Ex,a,r,x'为对经验回放池中采样的转移样本x,a,r,x'求期望,y为实际的动作值函数,可以表示为公式4: 公式4中:ri为当前奖励,aj'=μj'oj为智能体j的目标策略网络μj'根据观测量oj生成的动作,γ为折扣因子;γ∈[0,1];为动作值函数,用于评估后续步骤动作优劣,由目标价值网络输出得到; S203主网络的训练目标是最大化策略网络的期望收益Jμi,同时最小化价值网络损失函数Lθi,对主网络中的策略网络和价值网络以学习率α为更新步长进行更新,更新得到公式5: 其中,μi为智能体i的策略网络参数,θi为智能体i的价值网络参数,α为学习率,为策略目标函数Jμi关于参数θi的梯度,用于指导参数更新方向; S204目标网络采用软更新的更新方式,主网络参数用于目标网络的更新,目标网络的更新幅度由目标网络更新率τ决定,0≤τ<1,更新得到公式6: 其中,θ'为目标价值网络的参数,μ'为目标策略网络的参数,θ为主网络中价值网络的参数,μ为主网络中策略网络的参数,τ为目标网络更新率。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人国网吉林省电力有限公司;国网吉林省电力有限公司电力科学研究院;东北电力大学;吉林省电力科学研究院有限公司,其通讯地址为:130000 吉林省长春市南关区人民大街10388号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由AI智能生成
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。