Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 积分商城 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 河南科技大学郑瑞娟获国家专利权

河南科技大学郑瑞娟获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉河南科技大学申请的专利一种基于强化学习的云边计算任务调度方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN118740835B

龙图腾网通过国家知识产权局官网在2026-01-30发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202410926128.4,技术领域涉及:H04L67/10;该发明授权一种基于强化学习的云边计算任务调度方法是由郑瑞娟;张玉珍;赵旭辉;朱军龙;刘铭;刘牧华;吴庆涛设计研发完成,并于2024-07-11向国家知识产权局提交的专利申请。

一种基于强化学习的云边计算任务调度方法在说明书摘要公布了:本发明涉及计算机科学中组合优化技术领域的一种基于强化学习的云边计算任务调度方法,建立了服务器队列和任务队列,基于云边计算任务调度优化目标建立系统模型,构建基于注意力机制的LSTM网络模型架构,根据不同任务的注意力权重,输出资源分配的概率分布,接着采用改进后的A3C‑IW强化学习算法,使用异步策略梯度方法,得到任务调度决策。定义强化学习每一步的奖励回报函数R,针对不同的奖励回报的任务调度策略,得到最优计算任务调度策略。本发明通过使用强化学习有效平衡了云边系统资源利用率和服务质量,最小化响应时间、能耗,能更好适应云边协同环境下的计算任务调度。

本发明授权一种基于强化学习的云边计算任务调度方法在权利要求书中公布了:1.一种基于强化学习的云边计算任务调度方法,其特征在于:包括以下步骤: 步骤一:将n个独立的计算任务分配给m个服务器计算资源进行处理,且mn;其中,任务集合T={T1,T2,T3......Tn},任务的参数Ti为:Ti=Tis,Tim,Tibw; 式中,Tis为任务大小,Tim为处理任务预期所需内存,Tibw为处理任务预期所需带宽; 服务器集合V={V1,V2,V3......Vm},服务器的参数Vj为: 式中,表示服务器的处理能力,表示服务器的可用内存,表示服务器的可用带宽; 将任务的执行时间划分为相等持续时间的调度间隔,并根据发生的顺序对调度间隔进行编号:X={X1,X2,...}; 步骤二:建立基于注意力机制的LSTM神经网络模型,在LSTM神经网络模型的输入端引入注意力机制,将不同服务器和任务的参数映射为注意力向量,通过注意力向量的加权叠加调整不同参数对记忆单元的写入比例; 步骤三:建立改进的强化学习A3C-IW算法模型,在A3C算法模型中加入重要性权重,得到改进后的A3C-IW算法模型,A3C-IW算法模型包括一个主网络和若干个具有局部网络的线程,所述线程独立的和环境进行交互得到经验数据,所述主网络接收每个局部网络上传的数据,将当前状态作为网络的输入,并输出当前状态的策略函数和值函数; 所述A3C-IW算法模型将输入状态S分别通过主网络中的Critic网络输出状态价值函数V,通过主网络中的Actor网络输出对应的策略函数π; 对Actor网络进行更新的方法为:在Actor网络生成的每个策略函数过程中,建模成一个马尔可夫决策过程:S,A,P,R,γ; 其中,S为状态空间,A为动作空间、表示为A={ai,j},ai,j表示将任务i调度到服务器j进行计算,P为状态转移概率,R为奖励函数,γ为折扣因子; 其中,γ=1表示未来奖励和当前奖励价值相同,γ1则表示未来的奖励会随着时间折扣; 在动作空间A和状态空间S中,给定当前状态st,智能体执行动作at,at根据调度策略πa|s进行随机抽样得到,环境会给出奖励Rt和新的状态st+1; 对Critic网络进行更新的方法为:通过最小化损失函数更新参数,计算时序差分法的TD目标,作为目标价值网络在t+1时刻对状态价值函数做出的估计: 式中,vst+1;ω是状态价值网络在t+1时刻对状态价值函数做出的估计,vst;ω和都是对状态价值函数的估计,由于基于真实观测到的奖励Rt,所以固定ω是价值网络的参数,更新ω,使得vst;ω更接近 定义损失函数: 设损失函数的梯度是: 采用时序差分法的TD误差表示价值网络预测值和实际值之间的差异,定义TD误差为 做一轮梯度下降更新ω: 式中,是学习率; 其中,重要性权重通过在梯度更新中引入一个权重因子,并与策略梯度相乘,用于更新策略网络参数; 步骤四:LSTM神经网络模型输出的基础上应用A3C-IW算法模型,进行策略学习和优化,将任务分配概率分布p′,与Actor网络生成的概率分布进行加权求合,得到最终的调度策略

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人河南科技大学,其通讯地址为:471000 河南省洛阳市洛龙区开元大道263号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。