Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 恭喜浙江工业大学王力成获国家专利权

恭喜浙江工业大学王力成获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网恭喜浙江工业大学申请的专利一种基于元强化学习算法的光伏逆变器协同控制方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN117040002B

龙图腾网通过国家知识产权局官网在2025-06-10发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202311022514.2,技术领域涉及:H02J3/38;该发明授权一种基于元强化学习算法的光伏逆变器协同控制方法是由王力成;王涛;张有兵设计研发完成,并于2023-08-15向国家知识产权局提交的专利申请。

一种基于元强化学习算法的光伏逆变器协同控制方法在说明书摘要公布了:一种基于元强化学习算法的光伏逆变器协同控制方法,为了在配电网发生重构以后,光伏逆变器集群仍能够实现协同控制,本发明在传统的深度强化学习算法的基础之上引入元学习算法。经过充分训练以后的智能体能够学会如何学习,从而快速适应全新的配电网拓扑结构,包括:首先,根据配电网的物理背景建立马尔可夫决策模型;其次,建立强化学习算法流程;再次,在强化学习算法训练中加入元学习的方法;最后,将训练好的智能体用于实际的配电网电压控制中。本发明的优点是经过充分训练以后的智能体能快速适应不同的配电网拓扑结构,根据当前时刻的状态以及上一时刻的动作、奖励作出判断,以达到快速适应新任务的目的。

本发明授权一种基于元强化学习算法的光伏逆变器协同控制方法在权利要求书中公布了:1.一种基于元强化学习算法的光伏逆变器协同控制方法,包括以下步骤:S1:建立基于配电网电压控制考虑配电网重构的马尔可夫决策模型;根据配电网电压管理的数学模型,确定马尔可夫决策过程的状态;根据光伏逆变器的工作原理和特性,确定马尔可夫决策过程的动作;根据配电网电压管理的目标,确定马尔科夫决策过程的奖励函数;根据不同的配电网拓扑结构,建立马尔可夫决策过程的集合;根据马尔可夫决策过程的状态转移概率,建立动作价值函数和状态价值函数;S2:建立元强化学习实时控制算法,即在标准的深度强化学习算法SAC中引入元学习;SAC是基于演员-评论家架构的深度强化学习算法;其中,演员负责在每步动作中提供最优动作策略π,其本质是对于特定的状态,产生特定的动作概率分布;评论家用于判定演员动作的优劣程度;元强化学习应用在考虑配电网重构的配电网电压管理的基本假设,适用于元强化学习训练的任务和元强化学习测试的任务服从同一任务分布,即: 其中,表示任务,即特定的配电网拓扑结构;表示训练用的任务集合,即用来训练参数的配电网拓扑结构的集合;表示测试用的任务集合,即用来检验训练效果的配电网拓扑结构的集合;表示任务的概率分布;元强化学习的目标可以总结成如下公式: 其中为智能体神经网络的参数;θ为智能体神经网络中循环神经网络的状态;表示损失函数;f表示智能体的学习策略;S3:建立训练流程,训练元强化学习算法的流程如下所示;S31:初始化评论家网络演员网络价值函数和其中θ,ψ,分别为网络的参数;初始化目标价值网络的参数;初始化经验池R;S32:从训练任务分布中抽取任务确定配电网的拓扑结构;进行智能体和环境的交互,将数据存储进经验池;S33:从经验池中小批量抽取数据更新评论家网络、价值函数网络、策略网络、目标价值函数的参数;S4:将训练完备的元强化学习算法应用于考虑配电网重构的配电网电压管理任务中;所述步骤S1中,马尔可夫决策模型的构建包括以下过程:S1-1:建立状态;智能体通过观察到的状态采取动作并根据动作作用后导致的下一个状态计算奖励函数,所以状态必须尽可能包含所有的信息;在t时刻的状态St用下式表示: 其中,表示t时刻各个节点的有功负荷;表示t时刻各个节点的无功负荷;表示t时刻所有光伏发电的有功输出;Vt表示t时刻各个节点的电压幅值;S1-2:建立动作;通过调整光伏逆变器输出的无功功率维持配电网电压稳定和优化线路损耗,动作为各个逆变器输出的无功值,用下式表示: 其中,表示t时刻所有光伏逆变器输出的无功功率值;由于光伏逆变器输出的无功功率受到光伏逆变器本身的容量影响,所以智能体动作的上下限分别为和S1-3:设置目标和奖励函数;逆变器控制的目标是维持配电网电压的稳定和优化网络损耗;如果配电网存在电压越限,按照6式来计算奖励函数;如果不存在电压越限,按照7式来计算奖励函数: 其中,M为小于0的常数,用于对电压越限的动作作出惩罚;和V分别为电压的上限和下限,此处化为标幺值,分别为1.05和0.95;表示在t时刻第j个节点的电压;为配电网所有节点的集合;λ为大于0的常数,用于对减少配电网线路损耗的动作作出奖励;为t时刻无逆变器注入无功的配电网线路损耗;表示t时刻经逆变器注入无功功率以后配电网的线路损耗;S1-4:建立马尔可夫决策过程的集合;对于一个特定的马尔可夫决策过程,t+1时刻的状态和t时刻获取的奖励完全取决于t时刻的状态以及t时刻采取的动作,和t时刻之前所有的状态无关;即满足下式关系:St+1,Rt~ρ·|St,At8对于配电网重构的物理背景,每一次重构会使系统的潮流方程发生改变,即每一次重构会使系统的状态转移概率发生改变;所以每一种配电网拓扑结构对应一个特定的马尔可夫决策过程,将配电网训练时所有可能的拓扑结构的概率分布记作每次训练时从中随机抽取一组拓扑结构进行N个回合的训练,将这一过程称作一次试验;训练过程总共需要进行M次试验;S1-5:建立价值函数;为了权衡长远利益和短期利益,引入状态价值函数和动作价值函数,分别定义如下: 其中st表示随机t时刻具体的状态,St表示随机变量,动作At和at同理;γ为大于0小于1的折扣因子,用于权衡长远利益和眼前利益;表示熵;τ为动作轨迹。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人浙江工业大学,其通讯地址为:310014 浙江省杭州市拱墅区潮王路18号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。