北京建筑大学谭志获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉北京建筑大学申请的专利基于深度强化学习的HVAC系统温度控制与能耗优化方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119292061B 。
龙图腾网通过国家知识产权局官网在2025-08-26发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411402557.8,技术领域涉及:G05B13/04;该发明授权基于深度强化学习的HVAC系统温度控制与能耗优化方法是由谭志;张琛设计研发完成,并于2024-10-09向国家知识产权局提交的专利申请。
本基于深度强化学习的HVAC系统温度控制与能耗优化方法在说明书摘要公布了:本发明提供一种基于深度强化学习的HVAC系统温度控制与能耗优化方法,通过基于熵的数据筛选方法,策略评估模块和设计奖励函数实现了在外部条件干扰下实现HVAC系统温度控制与能耗优化。基于熵的数据筛选方法通过误差公式计算数据对于智能体训练的价值,将高价值数据反复用于智能体的训练,增强训练效果;策略评估模块是在双Q结构上进一步解决Q值的高估问题,修正Q值的输出,降低了随机性Q值的影响,还将策略与实际动作的正则化加入到损失函数更新过程,消除了随机噪声对于Q值的影响,确保策略输出的准确性;设计控制温度和优化能耗的奖励函数,能使智能体能平衡多任务之间的矛盾,寻找多目标任务交叉的最优解使HVAC系统能够控制温度一直保持在温度范围的同时减少了不必要的能源消耗。
本发明授权基于深度强化学习的HVAC系统温度控制与能耗优化方法在权利要求书中公布了:1.基于深度强化学习的HVAC系统温度控制与能耗优化方法,其特征在于,包括: S1基于获取的环境参数和暖通空调控制状态数据,根据温度控制与能耗优化的要求计算获得控制模型的奖励函数; 所述控制模型包括第一支路、第二支路和智能体;所述第一支路包括沿数据流方向依次设置的奖励函数、基于熵的数据筛选层,所述基于熵的数据筛选层用于获得高价值数据,并输送到所述第二支路;所述第二支路包括沿数据流方向依次设置的行动者评论家网络和策略评估层,所述行动者评论家网络包括数据流方向依次设置的行动者网络和评论家网络,所述行动者网络具有一个动作策略网络,所述评论家网络具有四个Q网络; 所述评论家网络包括相互并行设置的评论家第一Q网络和评论家第二Q网络;所述评论家第一Q网络和评论家第二Q网络分别包括两个子网络,所述评论家第一Q网络的两个子网络用于分别计算获得Q1值和Q2值;评论家第二Q网络的子网络分别用于计算获得minQ’值,使得所述行动者评论家网络能够通过Q1值、Q2值和minQ’值计算获得用于反向更新所述评论家第一Q网络和评论家第二Q网络; 所述奖励函数包括: 通过式 R=R能耗+βR温度1 构建总体奖励函数;式中,能耗奖励值R能耗和温度奖励值R温度分别通过式 R能耗=W平均W当前平均2 R温度=-T当前-T设定均值2T设定上限-T设定均值23 计算获得;β为调节温度奖励占总奖励的比例;式2中,W平均是指对比的控制算法控制下的系统平均能耗,W当前平均是指所采用算法启动到当前的平均能耗;式3中,T当前指的是当前温度,T设定均值是指所要保持温度区间的平均温度,T设定上限是指温度区间的最高温度; S2将暖通空调所属建筑物内的实际环境数据和暖通空调控制状态数据输入到所述奖励函数中,计算获得控制系统的奖励值r,通过基于熵的数据筛选层对计算获得奖励值r对应的实际环境数据进行筛选处理,获得高价值数据; S3初始化所述评论家网络的四个Q网络,初始化行动者网络,并将初始化后的数据返回经验池; S4在每个时间步中,获取智能体在当前环境中的状态st,在当前状态st中选择并执行动作a,将当前状态st和动作a输入到所述奖励函数中获得奖励值r,使得智能体转移到执行动作a后的新状态st+1; S5评估步骤S4的执行效果,若执行效果低于第一预设阈值,则重新执行步骤S4,否则,将执行结果存入经验池; S6多次重复执行步骤S4和S5,并将执行结果存入经验池si,a,r,si+1t∈i;判断经验池中的行动策略是否大于第二预设阈值,若是,则执行步骤S6,否则,返回执行步骤S3; S7通过所述策略评估层并使用式 Qs,a←Qs,a+α[r+γmaxQst+1,at+1-Qst,at]4 计算所述经验池si,a,r,si+1t∈i中的行动策略的目标Q值;通过梯度下降法的计算式 δ=|r+αHs,a+Qst+1,at+1-Qst,at|6 计算获得所述目标Q值与通过梯度下降法最小化所述目标Q值的差;式4中,s是状态代表影响控制目标的各维度数据;a是智能体在当前状态通过策略计算出的控制动作;r是当前状态下采取行动获得的奖励;Qst,at是在确定的状态和动作下,智能体未来预期能够获得的累计所述目标Q值;γ是折扣因子,用于衡量未来奖励的重要性;式6中,Hs,a表示当前状态下的熵值,通过式Hs,a=-logπs,a7计算获得;式7中,πs,a在状态s下采取动作a的概率; S8基于更新权重的评论家Q网络的动作at+1,结合行动者网络选择的动作πs的策略评估,通过损失函数式 计算步骤S4至S8的执行结果的误差,然后使用该误差反向更新所述评论家第二Q网络;式8中,πs表示智能体状态s下策略选择的动作;y通过式y=r+γmaxQst+1,at+1;θ′计算获得,其中γ是折现系数; S9根据控制结果动态的调节所述奖励函数的β值,提升所述智能体对实现具体目标的控制精度; S10返回执行步骤S4至S9,多次训练智能体,计算训练完成后的温度偏移和平均能耗,保存网络参数和最优控制模型权重; S11使用执行了步骤S11之后获得的最优控制模型控制暖通空调。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京建筑大学,其通讯地址为:100044 北京市西城区展览馆路1号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励