Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 积分商城 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 西南大学李华青获国家专利权

西南大学李华青获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉西南大学申请的专利一种基于能源需求响应管理的无模型强化学习方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116227806B

龙图腾网通过国家知识产权局官网在2025-10-31发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211562407.4,技术领域涉及:G06Q10/0631;该发明授权一种基于能源需求响应管理的无模型强化学习方法是由李华青;李骏;郑李逢;冯丽萍;石亚伟;王慧维;李传东;夏大文;张伟;纪良浩;董滔;吕庆国;王政;陈孟钢;冉亮;杜镇源设计研发完成,并于2022-12-07向国家知识产权局提交的专利申请。

一种基于能源需求响应管理的无模型强化学习方法在说明书摘要公布了:本发明提供一种基于能源需求响应管理的无模型强化学习方法,包括:构建住宅电器模型;结合居民综合用电成本和电力零售商利润确定社会福利,根据社会福利平衡居民综合用电成本与零售商利润,社会福利表示为基于价格的住宅需求响应管理非凸优化问题;根据电网的传输数据,分别采用基于Q‑表的Q学习算法、深度学习与Q学习相结合的Q‑网络算法和Actor‑Critic算法构建针对基于价格的住宅需求响应管理非凸优化问题的强化学习解决方案;根据三种基于价格的住宅需求响应管理非凸优化问题的强化学习解决方案,确定最优解决方案和最优零售价格序列。本发明能够采用三种算法分别进行建模,实现对未知电力市场环境下的最佳零售价格规划。

本发明授权一种基于能源需求响应管理的无模型强化学习方法在权利要求书中公布了:1.一种基于能源需求响应管理的无模型强化学习方法,其特征在于,包括以下步骤: 构建住宅电器模型,所述住宅电器包括可调度电器、不可调度电器和插电式电动汽车; 结合居民综合用电成本和零售商利润确定社会福利,根据所述社会福利平衡居民综合用电成本与零售商利润,社会福利表示为基于价格的住宅需求响应管理非凸优化问题; 基于无模型强化学习算法构建零售商-居民的电力交易模型,所述无模型强化学习的基本元素包括一个五元组S,A,R,Tt,γ,对应的零售商-居民的电力交易模型为: 状态S={s1,...,sT},Ri,t的能源需求和Ei,t-1的实际耗电量,由住宅产生; 动作A={a1,...,aM},零售价格ρi,t由电力零售商决定,M表示离散化零售价格区间[ρmin,ρmax]后的集合数; 奖励R={r1,...,rT},社会福利FtP; 状态转移函数Tt,与零售价格相关; 折扣因子γ∈[0,1],为未来社会福利的重要性权重; 根据电网的传输数据,分别采用基于Q-表的Q学习算法、深度学习与Q学习相结合的Q-网络算法和Actor-Critic算法构建基于价格的住宅需求响应管理非凸优化问题的强化学习解决方案; 其中,采用基于Q-表的Q学习算法构建基于价格的住宅需求响应管理非凸优化问题的强化学习解决方案,包括: 基于贝尔曼方程和贪婪策略对q-值进行更新,q-值的更新公式为: 式中,k表示训练索引,lr表示学习率; 当Q-表收敛时,采用贪婪策略获得最佳零售价格,为: 用Q-值函数近似代替Q-表,即: 式中,α表示Q-网络的权重; 在监督学习中通过当前训练索引k的网络估计下一个时隙的q-值作为标签,则目标q-值可以表示为: Q-网络的损失函数可以表示为: 式中,采用梯度下降法迭代更新权重α; 所述采用深度学习与Q-学习相结合的Q-网络算法构建基于价格的住宅需求响应管理非凸优化问题的强化学习解决方案,包括: 采用DDQN对每个电器使用两个相同的Q-网络结构:当前Q-网络αk和目标Q-网络并分别用于负责决策和基于q-函数的估计; 基于公式17,目标q-值表示为: 式中,表示目标Q-网络的q-值,表示当前Q-网络的估计q-值,则损失函数表示为: 采用公式19和20,电力零售商根据当前Q-网络αk与住宅进行F天的信息交互,将观测值存储在经验回放缓冲区D中,并从D中抽出M组观测值,用于训练当前Q-网络,目标Q-网络权重则在固定周期C进行更新; 所述采用Actor-Critic算法构建基于价格的住宅需求响应管理非凸优化问题的强化学习解决方案,包括: 为Q-网络加入相应的Actor策略网络,其策略分布为: 式中,Pr表示概率分布,T表示总时隙; Actor-Critic网络的输出分别表示为: ηi,t=φasi,t,βi22 Ji,t=φcsi,t,ai,t,αi23 式中,βi和αi分别为Actor神经网络的权重和Critic神经网络的权重,φa和φc为激活函数,估计的动作ηi,t是Actor网络的输出,动作值函数Ji,t是Critic网络在时隙t的输出,则时序差分误差为: TDi,t=FtP+γJi,t+1-Ji,t24 式中,折扣因子γ=0时,表示忽略了未来的状态值;γ=1时,表示学习算法对所有时间段的奖励给予公平的重视; 则Critic神经网络的损失函数被定义为: 利用时序差分误差作为Actor网络的评价函数,基于反向传播,Actor-Critic的更新公式被表示为: 式中,la和lc分别表示Actor和Critic的学习率; 根据三种所述基于价格的住宅需求响应管理非凸优化问题的强化学习解决方案,确定最优解决方案和最优零售价格序列。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人西南大学,其通讯地址为:400715 重庆市北碚区天生路2号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。