Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 积分商城 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 中国科学院计算技术研究所叶剑获国家专利权

中国科学院计算技术研究所叶剑获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉中国科学院计算技术研究所申请的专利基于深度强化学习的容器云任务调度方法和装置获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119690591B

龙图腾网通过国家知识产权局官网在2025-11-07发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411849331.2,技术领域涉及:G06F9/455;该发明授权基于深度强化学习的容器云任务调度方法和装置是由叶剑;王博荣;程爽设计研发完成,并于2024-12-16向国家知识产权局提交的专利申请。

基于深度强化学习的容器云任务调度方法和装置在说明书摘要公布了:本发明提供了一种基于深度强化学习的容器云任务调度方法,包括:定义容器云任务调度事项;建模为马尔可夫决策模型,包括:以每个任务的任务需求和每个可用节点的当前资源状态作为状态集,将可用节点的集合作为动作集;智能体根据任务的任务需求、可用节点的当前资源状态和任务调度策略,将任务分别调度给某个可用节点;定义奖励函数,用于在智能体将任务调度到可用节点后计算奖励;通过深度强化学习模型对马尔可夫决策模型进行优化,得到优化后的任务调度策略。本发明还提供一种基于深度强化学习的容器云任务调度装置、存储介质及电子设备。借此,本发明能够从系统的运行信息中自动学习到预期的调度策略,自动适应变化的环境,而无需依赖专家知识。

本发明授权基于深度强化学习的容器云任务调度方法和装置在权利要求书中公布了:1.一种基于深度强化学习的容器云任务调度方法,其特征在于,包括: 任务调度定义步骤,定义容器云任务调度事项,所述容器云任务调度事项包括任务属性、节点属性和任务调度策略; MDP建模步骤,将所述容器云任务调度事项建模为马尔可夫决策模型,包括:以每个任务的任务需求和每个可用节点的当前资源状态作为状态集,将所述可用节点的集合作为动作集;智能体根据至少一个任务的任务需求、所有可用节点的当前资源状态和所述任务调度策略,将至少一个所述任务分别调度给某个可用节点;定义奖励函数,用于在所述智能体将所述任务调度到所述可用节点后计算奖励; 强化学习优化步骤,通过深度强化学习模型对所述马尔可夫决策模型进行优化,得到优化后的任务调度策略; 所述马尔可夫决策模型表示为S,A,P,R,γ,其中S表示所述状态集,A表示所述动作集,P表示转移概率,R表示所述奖励函数,γ∈[0,1]是折扣因子,表示对未来奖励的偏好; 所述MDP建模步骤中以每个任务的任务需求和每个可用节点的当前资源状态作为状态集步骤包括: 所述智能体从云容器环境中观察状态,包括每个任务的所述任务需求和每个可用节点的所述当前资源状态; 假设当前计算集群Q中共有m个可用节点,其中每个可用节点有o个特征,那么在时间步t时,可表示为: 其中,i是可用节点的索引,z是节点特征的索引; 假设当前任务集合Θ中的任务θj有p个特征,那么在时间步t时可表示为: 其中,是一个集合,包含了p个元素,每个元素是k是当前任务特征的索引; 每个任务的信息仅在任务到达后作为状态的一部分发送给智能体,因此状态集S定义为: 其中,所述状态集S中的每个元素st,由组成,包含了所有时间 下的状态st; 所述MDP建模步骤中定义奖励函数,用于在所述智能体将所述任务调度到所述可用节点后计算奖励步骤包括: 首先用来表示可用节点i在时间t的资源利用率; 其中,K表示资源种类的数量,所述资源种类包括处理器CPU、内存Mem、接收速率Recv、传输速率Tran、读取速率Read和写入速率Write;表示对所有K种资源类型进行求和; 那么可将时间t时的奖励rt定义如下: 其中,是任务θi的总响应时间,α是惩罚因子,κ是替换次数; 如果任务调度成功,则其总响应时间的倒数被分配为奖励,以鼓励策略寻找更好的调度,来获得更短的总响应时间和更高的奖励rt; 如果任务调度失败,则采用一个预定值Δ作为惩罚,并建议所述任务调度策略在未来避免类似的动作,所述惩罚因子在任务需要多次调度才能成功时充当额外的折扣因子,且如果所述任务多次失败,则会放大惩罚的预定值Δ; 所述强化学习优化步骤包括: 建立所述深度强化学习模型,所述深度强化学习模型结合了深度Q网络和Rainbow方法; 设置所述深度强化学习模型的最小化损失函数,利用深度神经网络来逼近动作价值函数Qs,a;θ,其目标表达为所述最小化损失函数: Lθ=E[r+γmaxQs′,a′;θ--Qs,a;θ] 其中,r+γmaxQs′,a′;θ定义了状态-动作对s,a的目标值,r为奖励,γ为折扣因子,s’为后续状态,θ表示目标网络的参数,目标网络定期更新以稳定学习过程; 训练所述深度强化学习模型; 将待处理的任务序列输入训练好的所述深度强化学习模型,得到优化后的所述任务调度策略。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中国科学院计算技术研究所,其通讯地址为:100080 北京市海淀区中关村科学院南路6号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。