西安交通大学苏光辉获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉西安交通大学申请的专利一种基于DDPG深度强化学习算法的空间热离子核电源控制方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116341376B 。
龙图腾网通过国家知识产权局官网在2025-09-02发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310259197.X,技术领域涉及:G06F30/27;该发明授权一种基于DDPG深度强化学习算法的空间热离子核电源控制方法是由苏光辉;傅江涵;金钊;王成龙;田文喜;秋穗正设计研发完成,并于2023-03-17向国家知识产权局提交的专利申请。
本一种基于DDPG深度强化学习算法的空间热离子核电源控制方法在说明书摘要公布了:一种基于DDPG深度强化学习算法的空间热离子核电源控制方法,主要步骤如下:1、搭建并初始化空间热离子核电源系统的环境,确定环境的状态空间和动作空间2、搭建actor神经网络和critic神经网络用于拟合策略函数和值函数3、构建DDPG深度强化学习算法模块4、进行智能体训练过程,在奖励值达到预设值时保存训练的智能体参数并完成训练5、基于训练完成的智能体,针对空间热离子核电源的瞬态控制工况进行仿真,评价控制性能。本发明的方法不需要预先提供训练数据,并且省略了控制系统的建模过程,可以实现针对空间热离子核电源的端到端控制,具有优良的控制性能。
本发明授权一种基于DDPG深度强化学习算法的空间热离子核电源控制方法在权利要求书中公布了:1.一种基于DDPG深度强化学习算法的空间热离子核电源控制方法,其特征在于:包括以下步骤: 步骤1:搭建并初始化空间热离子核电源系统的环境,确定环境的状态空间和动作空间; 深度强化学习算法的训练过程通过环境与智能体的交互实现,具体过程如下式所示: S1,A1,R1,S2→S2,A2,R2,S3→…→St,At,Rt,St+1 智能体接收环境中的观测变量St,采取DDPG深度强化学习算法得到动作量At并作用到环境中,环境的状态发生改变,转移到St+1,并返回一定的奖励值Rt; 所述环境包括空间热离子核电源系统中子物理模型、热工水力模型、冷却剂系统模型和控制转鼓模型,这些模型由一系列耦合的非线性微分方程组组成;在深度强化学习的训练过程中只需给定空间热离子核电源系统的状态空间即输出量和动作空间即输入量,即完成环境的搭建; 环境采用连续的状态空间,包括空间热离子核电源系统核功率误差值,核功率误差值的增量以及核功率的累计误差值,并对核功率误差值、核功率误差值的增量以及核功率的累计误差值进行归一化处理,如下式所示: 式中: E——空间热离子核电源系统的核功率相对误差 Et——空间热离子核电源系统t时刻的核功率相对误差 Pt——空间热离子核电源系统t时刻的核功率 Pd——空间热离子核电源系统的核功率目标值 St——t时刻环境的状态空间 环境采用连续的动作空间,为当前时间步控制转鼓的控制量,并对控制量做归一化处理,如下式所示: At=Ut 式中: At——t时刻环境的动作空间 Ut——t时刻控制转鼓的控制量 环境搭建完成后,对环境进行初始化,设定状态空间初始值S0与动作空间初始值A0,如下式所示: S0=[0.05,0,0] A0=0 为评价智能体的动作对环境的影响,考虑到最小化和功率误差并尽量采用最小的控制量,同时考虑智能体训练过程的附加奖励,设计奖励函数如下式表示: Rt=-keEt 2+kuUt-1 2+re+ru+rd+rs 式中前两项表示针对误差和控制量的惩罚项: Rt——t时刻的奖励函数 ke——误差项权重系数 ku——控制量项权重系数 后四项表示满足特定条件时的附加奖励值: 式中: Re——基于误差的额外奖励 Eset——误差奖励阈值 Ru——基于控制量的额外奖励 Uset——控制量奖励阈值 Rd——训练中途停止的惩罚 IsDone——训练中途停止的标志 rs——基于每轮训练时长的奖励项 ks——训练时间奖励系数 Tf——每轮训练的时间步长 Ts——每轮训练的总时间 步骤2:构建actor神经网络和critic神经网络用于拟合策略函数和值函数; DDPG深度强化学习算法中包括策略函数πS和值函数QS,A,分别采用actor神经网络和critic神经网络进行拟合; actor神经网络输入为环境的状态空间,输出为连续分布的一维动作空间,由多层神经网络结构组成;actor神经网络的输入层为环境的状态空间,包含3个神经元;隐含层包括3层全连接层,每层具有128个神经元,激活函数采用relu函数;输出层采用tanh激活函数进行归一化,并乘以比例系数umax,得到[-umax,umax]区间上的一维连续动作空间; critic神经网络输入为环境的状态空间以及actor神经网络的动作空间,输出为值函数的估计值,具有多层网络结构;critic神经网络输入层包括环境的状态空间以及actor神经网络的输出值两部分,经不同的隐含层处理后将两部分的元素对应相加,再经过两层全连接层,最终输出为价值函数的估计值; 最后,分别设置actor神经网络以及critic神经网络的超参数,完成神经网络的构建; 步骤3:构建DDPG深度强化学习算法模块;采用步骤2构建的神经网络结构,建立critic网络QS,A;φ以及actor网络πS;θ,其中φ与θ分别代表critic网络和actor网络的参数,S、A分别代表空间热离子核电源系统的状态空间和动作空间;定义目标critic网络与目标actor网络,分别为Q′S,A;φ′以及π′S;θ′;随机化网络参数φ和θ,并使φ′=φ,θ′=θ; DDPG深度强化学习算法模块的训练流程如下: 1观测环境的初始状态空间,进行第一轮训练过程; 2输出动作空间At=πSt;θ+Nt并作用于环境,得到动作空间的奖励值Rt和下一时刻环境的状态空间St+1;其中Nt为人为引入的随机噪声过程,目的是增加智能体对环境的探索能力; 3将当前时刻的状态转移过程St,At,Rt,St+1存入经验缓存空间中; 4从经验缓存空间中抽取状态转移过程Si,Ai,Ri,Si+1,共选取M组; 5针对目标critic网络计算目标函数yi: yi=Ri+γQ′Si+1,π′Si+1;θ′;φ′ 式中: Q′Si+1,π′Si+1;θ′;φ′——目标critic网络 φ′——目标critic网络参数 π′Si+1;θ′——目标actor网络 θ′——目标actor网络参数 γ——折扣因子 Ri——i时刻的奖励值 Si+1——i+1时刻环境的状态空间 6获取critic网络损失函数L,采用均方误差形式: 式中: M——抽取样本组数 QSi,πSi;θ;φ——critic网络 φ——critic网络参数 πSi;θ——actor网络 θ——actor网络参数 Si——i时刻环境的状态空间; 通过最小化损失函数L更新critic网络参数φ; 7构建actor网络的性能指标J,采样得到其策略梯度的估计值: 式中: M——抽取样本组数 ——性能指标对actor网络参数的梯度 ——critic网络对actor网络的梯度 ——actor网络对actor网络参数的梯度根据策略梯度估计值更新actor网络参数θ; 8采用平滑因子τ更新目标actor网络和目标critic网络: θ′=τθ+1-τθ′ φ′=τφ+1-τφ′ 9本轮训练结束,获取本轮奖励值总和Repi以及奖励值总和的均值Ravr: 式中: N——当前训练轮数 k——计算训练轮数 10采用初始化函数更新空间热离子核电源系统状态空间S,回到步骤2进行下一轮训练; 步骤4:进行智能体训练过程,在奖励值总和的均值Ravr达到预设值时保存训练的智能体参数并完成训练; 步骤5:基于训练完成的智能体,针对空间热离子核电源的瞬态控制工况进行仿真,评价控制性能。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人西安交通大学,其通讯地址为:710049 陕西省西安市碑林区咸宁西路28号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。