北京工业大学梁毅获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉北京工业大学申请的专利一种面向数据中心批处理作业的聚类方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114462524B 。
龙图腾网通过国家知识产权局官网在2025-10-10发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210098427.4,技术领域涉及:G06F18/23;该发明授权一种面向数据中心批处理作业的聚类方法是由梁毅;陈楷中设计研发完成,并于2022-01-19向国家知识产权局提交的专利申请。
本一种面向数据中心批处理作业的聚类方法在说明书摘要公布了:本发明公开了一种面向数据中心批处理作业的聚类方法,分为五个步骤:初始化、批处理作业原始资源使用特征建模、批处理作业隐层特征提取模型构建、批处理作业聚类方法构建、批处理作业分类。本发明针对批处理作业,提取了数据中心日志中作业的依赖结构与任务的资源使用特征属性集。基于所提取的特征与依赖关系,利用基于图卷积神经网络的自编码器构建批处理作业聚类方法。通过本发明提供的聚类方法,可以更准确的对批处理作业进行分类,进而提高容量规划、负载生成结果的准确性。
本发明授权一种面向数据中心批处理作业的聚类方法在权利要求书中公布了:1.一种面向数据中心批处理作业的聚类方法,其特征在于:由五个步骤组成:初始化、批处理作业原始资源使用特征建模、批处理作业隐层特征提取模型构建、批处理作业聚类方法构建、批处理作业分类: 有以下参数:第1至3层图卷积神经网络的输出矩阵列数c1、c2、c3,池化层的输出矩阵行数P,K均值聚类的聚类数量k;c1、c2、c3根据图卷积推荐参数得到,P根据日志中每个作业中任务的平均数量得到,k根据肘部法则确定;c1取32,c2取32,c3取8,P取15,k取8; 1初始化 使用日志中的批处理作业信息来进行数据的初始化,令日志中包含的属性全集为A={a1,…aF},从中选取与任务资源使用特征相关的属性,包括涉及到CPU、内存、执行时间和网络带宽的属性,定义属性子集为T={t1,t2…tS},S为属性子集T中属性个数;日志中包含的作业集合为W={w1,w2…wZ},其中Z为日志中作业的总数;W中的第i个作业wi由多个任务组成,表示为wi={wti1,wti2…wtiH},1≤i≤Z,其中H为作业wi中的任务总数,每一个任务由多个执行逻辑相同的并行实例组成,第j个任务表示为wtij={wiij1,wiij2…wiijV},1≤i≤Z,1≤j≤H,其中V为任务wtij中的实例总数;实例wiijq的开始时间定义为time_wiijq,1≤i≤Z,1≤j≤H,1≤q≤V;任务的开始时间为该任务中最早开始执行的实例的开始时间,任务wtij的开始时间表示为timeij,timeij=mintime_wiij1,time_wiij,…,time_wiijV; 2批处理作业原始资源使用特征建模 2.1对于任意作业wi,1≤i≤Z,Z为日志中的总作业数量,其批处理作业原始资源使用特征包含依赖结构与任务资源属性特征,首先通过邻接矩阵定义作业的依赖结构,邻接矩阵形式如下 该矩阵的行数与列数均为H;矩阵的每一行代表一个任务,每一列代表一个任务;矩阵的任一元素mua,1≤u≤H,1≤a≤H,表示批处理作业中任务wtia是否依赖于任务wtiu;若存在依赖,则mua=1;否则mua=0;任务间是否存在依赖根据wtia是否只有在任务wtiu结束后才能开始判断,如果是则存在依赖; 2.2对于任一作业wi,1≤i≤Z,使用任务特征矩阵定义每个任务的资源使用特征,其形式如下: 矩阵的行数为H,列数为S;矩阵任意元素fj,q,1≤j≤H,1≤q≤S,表示作业wi中,任务wtij在属性tq上的属性值; 2.3对于每一个作业wi,根据其依赖结构,初始化邻接矩阵Mi,根据其任务资源使用特征,初始化特征矩阵Fi; 3批处理作业隐层特征提取模型构建 3.1使用自编码神经网络作为批处理作业隐层特征提取模型的设计结构,自编码神经网络由编码器与解码器构成,编码器由三层图卷积层、卷积层、池化层以及层全连接层组成;解码器由层全连接层、反池化层、反卷积层、以及三层反图卷积层组成;通过减小编码器的输入与解码器输出之间的差异训练自编码神经网络,训练完成后使用编码器部分输出作业的隐层特征向量; 模型的输入为尺寸为H×H的邻接矩阵M与尺寸为H×S的特征矩阵F,输出为批处理作业的隐层特征向量,该特征向量汇集了作业在依赖结构与资源使用上的特征;学习率为0.01或0.001,设置训练的批尺寸为日志样本数据集全集规模; 编码器中的图卷积层计算方法如公式1至公式3所示;首先计算作业w的增广邻接矩阵计算公式如公式1所示,其中M为作业w的邻接矩阵,I为与M相同行数的单位矩阵;之后计算作业w的增广对角度矩阵计算公式如公式2所示,其中表示矩阵中第i行、第j列的数值,表示矩阵中第i行、第q列的数值,H为矩阵的行数,也是作业w中的任务总数;公式3是图卷积层的迭代计算公式,其中Gm是第m层图卷积的输入矩阵,G0为作业w的特征矩阵F;θm是图卷积操作的参数矩阵,具体数值需要通过训练得到,通过θm将第m层具有cm维特征的矩阵Gm映射至cm+1维,θm是行数为cm、列数为cm+1的实数矩阵;ξ·是tanh激活函数;在三次图卷积后,得到矩阵G3; 图卷积层后为卷积层,在卷积开始前根据作业中每个任务的开始时间timeij重新对图卷积层的输出矩阵G3进行排序,矩阵G3中每一行代表一个任务,重新排序后,开始时间timeij小的任务所对应的行将位于矩阵上方,开始时间晚的任务所对应的行则位于矩阵下方;将作业中每个任务在DAG中的层数l添加至矩阵中对应行的右侧,层数l为根任务至该任务的最短路径,此时矩阵G3的列数变为c3+1;卷积层的卷积核尺寸为2×c3+1,步长为1,即卷积核的列数与输入矩阵列数相等;池化层由自适应平均池化与带权值的自适应平均池化构成;自适应平均池化的参数为输出矩阵的尺寸output_size,output_size=P,1;通过output_size与输入矩阵的尺寸input_size计算得到池化的参数步长stride与核数kernel_size,计算如公式4与公式5所示,其中floor函数为向下取整;池化层的计算公式如公式6所示,P为输出矩阵的行数,H为输入矩阵的行数,adaptiveAvgPool为自适应平均池化;池化层输出矩阵的尺寸为P×2;全连接层输出作业的特征向量Vw,神经元个数为8; stride=floorinput_size÷output_size4 kernel_size=input_size-output_size-1×stride5 解码器中的全连接层的神经元数量为2P;反池化层计算如公式7所示,avgUnpool函数为反平均池化,参数与编码器中的自适应池化相同;反卷积层的参数与编码器中卷积层相同;之后根据编码器中的排序,将卷积层的输出矩阵中的每行还原至原始位置;反图卷积层的计算公式同公式1,第一层反卷积层的参数与第三层卷积层相同,第二层反卷积层的参数与二层卷积层相同,以此类推; 训练时损失值根据输入矩阵F和解码器输出的差异计算,具体公式如公式8所示;其中F为编码器输入的特征矩阵,为解码器的输出矩阵,‖·‖F为Frobenius范数,H为作业w中的任务数量,N为日志中具有H个任务的作业样本数量,Z为日志中作业样本的总数; 3.2使用批处理作业集W训练自编码神经网络模型AE; 3.2.1训练构建好的自编码神经网络AE,将作业集W中的所有作业wi作为样本数据,wi代表作业集中的第i个作业;邻接矩阵Mi与特征矩阵Fi作为模型的输入值,根据损失值通过向前传播算法和Adam优化器更新模型参数进行训练,重复输入直到所有作业训练完毕; 3.2.2重复3.2.1的过程,对模型进行多轮参数更新,直到两次迭代的损失值差异小于2%时停止迭代;在参数更新结束后作业训练完成; 4批处理作业聚类模型构建 4.1选取批处理作业的隐层特征向量X作为聚类所需的特征值,使用K均值聚类算法进行聚类,定义K均值聚类簇数k=8,聚类后的批处理作业类簇CL={cl1,cl2,…,clk};初始化随机选取k个簇的中心点,中心点集合为CT={c1,c2,…ck},其中ci代表第i个簇的中心点样本ci→cli; 4.2遍历作业集W,对任意wi按照公式9计算其与k个中心点的距离;其中Xi为作业wi的特征向量,Xj为第j个类簇的中心点的特征向量,‖·‖F为Frobenius范数;与任务wi间距离最小的中心点所在的簇作为任务wi的归属,如公式10所示,其中cluster函数返回所属的簇,将wi加入集合clusterwi中;遍历作业集W,W中任意作业wi存在归属簇后,重新计算每个簇的中心点,按照公式11所示更新每个簇的中心点,ci为簇cli的中心点,n为簇cli中元素数量,Xj所对应的wi∈cli; 4.3重复步骤4.2,直到簇的中心点不再变化,至此完成作业集W的聚类,得到聚类模型; 4.4根据聚类结果,将批处理作业数据集分为簇,每个簇中的作业具有相似的DAG结构与资源消耗模式; 5批处理作业分类 5.1对于任一作业w,输入其邻接矩阵M与特征矩阵F至步骤3中的自编码神经网络中,使用自编码神经网络进行隐层特征提取,自编码神经网络的编码器部分输出批处理作业的特征向量X; 5.2重复步骤5.1直到完成所有批处理作业的特征提取; 5.3对任意批处理作业w,计算作业w的特征向量X与批处理聚类模型中每个中心点的距离,计算公式如公式9所示;其中距离作业w距离最小的中心点所属的簇即为作业w所属的簇,至此完成作业w的分类。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京工业大学,其通讯地址为:100124 北京市朝阳区平乐园100号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励