Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 天津大学周钰雯获国家专利权

天津大学周钰雯获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉天津大学申请的专利一种基于智能体强化学习的分布式控制平面负载均衡方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116319571B

龙图腾网通过国家知识产权局官网在2025-08-15发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310282142.0,技术领域涉及:H04L47/125;该发明授权一种基于智能体强化学习的分布式控制平面负载均衡方法是由周钰雯;周晓波;何瑞;陈胜设计研发完成,并于2023-03-22向国家知识产权局提交的专利申请。

一种基于智能体强化学习的分布式控制平面负载均衡方法在说明书摘要公布了:本发明公开了一种基于智能体强化学习的分布式控制平面负载均衡方法,步骤:为每个交换机配备智能体;构建智能体的深度强化学习神经网络;训练深度强化学习神经网络模型;通过智能体分别将当前的本地状态信息输入各自训练好的模型中,各个智能体将分别输出一组动作的价值,选择拥有最高值的可用控制器,并将后续的请求发送给所选择的控制器。本发明通过在所有交换机上配备智能体,实现了所有控制器之间基于交换机的负载平衡,这种模式下不再需要判断每个控制器是否过载而消耗额外带宽来进行控制器和交换机之间的频繁协商,每个交换机可快速准确地选择合适的控制器。本发明在不同场景下将控制器之间最大响应延迟平均降低了5%~15%。

本发明授权一种基于智能体强化学习的分布式控制平面负载均衡方法在权利要求书中公布了:1.一种基于智能体强化学习的分布式控制平面负载均衡方法,其特征在于,包括以下步骤: S1、为每个交换机配备智能体, S2、构建智能体的深度强化学习神经网络; S3、对每个智能体的深度强化学习神经网络模型进行训练; S4、通过智能体分别将当前的本地状态信息输入各自训练好的神经网络模型中,各个智能体将分别输出一组动作的价值,选择拥有最高值的可用控制器,并将后续的请求发送给所选择的控制器; 所述深度强化学习神经网络模型中,使用了深度强化学习框架,由状态表示、动作表示、奖励表示和策略表示四部分组成: 状态表示:为深度强化学习网络模型输入的状态,采用一个三元组πi,νi,ωi表示,包括最近一个时间片ti内的平均发送速率νi,控制器对于交换机请求的平均回复延迟ωi以及最近一个时间片ti内交换机映射的控制器πi; 动作表示:输出的动作向量的每一个值代表了在输入状态下选择某一个控制器的评分,并选择得分最高值的控制器作为下一个ti+1时间片内交换机预期映射的控制器; 奖励表示:使用最近一个时间片ti内整个控制平面的平均回复延迟与当前映射控制器的回复延迟的差值,作为最近一个时间片ti内选择当前映射控制器这个动作的奖励; 策略表示:深度强化学习神经网络的输出实则为两个部分,分别是优势函数A和状态函数S,将二者相加再减去A各项之和的均值,即A+S-meanA,得到每一个动作的价值; 所述深度强化学习神经网络模型在训练过程中使用了两个网络,分别是主网络和目标网络,开始时随机初始化主网络的参数,并且复制给目标网络,即主网络和目标网络两个网络的参数相同,目标网络每隔一定的轮数就会复制主网络的参数;对每个智能体的深度强化学习神经网络模型进行训练,具体步骤为: A1、训练开始后,智能体从当前环境中抽取所需要的状态信息s,输入神经网络,得到反映动作价值的n维向量,向量中第p个值代表在时间片ti+1选择第p个控制器的价值; A2、采用epsilon探索-开发的策略,以1-epsilon的概率采取拥有最高值的动作a=argmaxaQs,a,而以epsilon的概率从n个动作中随机采用,其中,Qs,a代表对状态s下采用动作a能创造的累积价值,在执行动作a以后,环境进入下一个状态s',并且反馈给智能体动作a相应的奖励r,智能体利用r来更新Q值; A3、交换机经过与环境的多次交互,将产生的交互信息s,a,r,s’存入回放缓存中,并且打乱其顺序以减弱数据之间的时间依赖性; A4、从缓存中随机取一批数据,利用主网络选出下一个状态s'下使价值最高的动作a*,并在目标网络中执行动作a*,得到对应的价值Q-,结合缓存中存储的奖励值r,计算出目标网络产生的当前状态的Q值,不断利用梯度下降的方法更新主网络的参数,最小化主网络产生的Q与目标网络产生的Q-之间的均方误差,得到训练好的主网络; 所述状态信息s包括智能体本地存储的最近一个时间片ti内的平均发送速率νi,控制器对于交换机请求的平均回复延迟ωi以及最近一个时间片ti内交换机映射的控制器πi,形成一个三元组πi,νi,ωi,作为深度强化学习神经网络的输入。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人天津大学,其通讯地址为:300072 天津市南开区卫津路92号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。