北京理工大学胡晗获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉北京理工大学申请的专利一种基于核函数的神经网络模型推理时延预测方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115511083B 。
龙图腾网通过国家知识产权局官网在2025-10-10发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211162055.3,技术领域涉及:G06N5/04;该发明授权一种基于核函数的神经网络模型推理时延预测方法是由胡晗;黄沛杰;郑雨宁;李逸来设计研发完成,并于2022-09-23向国家知识产权局提交的专利申请。
本一种基于核函数的神经网络模型推理时延预测方法在说明书摘要公布了:本发明公开的一种基于核函数的神经网络模型推理时延预测方法,属于深度学习领域。本发明使用核函数信息来预测推理时延,通过收集神经网络模型推理时被分解出的核函数的各类参数,拟合核函数的参数随图形处理器资源分配量的变化曲线,通过拟合的曲线获取单个模型推理时延预测结果;并为每类神经网络模型构建共存推理时与时延增长程度有关的四维曲面,通过曲面获取其与其他模型共存推理时的时延预测结果。本发明解决多神经网络执行时因模型种类多,组合情况复杂导致的时延难以预测的问题,本发明预测准确率高,更轻量级,能够改善云端服务器的推理时延预测性能。
本发明授权一种基于核函数的神经网络模型推理时延预测方法在权利要求书中公布了:1.一种基于核函数的神经网络模型推理时延预测方法,其特征在于:通过分解不同结构的神经网络模型为基础核函数,以基础核函数为单位进行预测,通过降维的方式增强扩展性,解决云端服务器执行神经网络模型推理时,模型种类多,组合情况复杂导致的时延难以预测的问题,实现云端服务器模型推理时延的预测,提高云端服务器推理任务的服务质量,具体包含以下步骤: 步骤一:获取神经网络模型对应的核函数执行时的分析数据; 设置神经网络模型推理时的不同批量和分配的图形处理器GraphicsProcessingUnit,GPU资源,获取每种情况下核函数执行时的参数,包括:核函数执行时将分解出的低级汇编指令的数量Nins,核函数执行过程中低级汇编指令的执行速度Sins,核函数执行过程中GPU时钟速率SGPU,核函数执行过程中GPU的流式多处理器SMStreamingMultiprocessor利用率rsm,核函数执行过程中GPU经历的周期数CGPU,核函数执行过程中SM活跃的周期数Csm,核函数执行过程中L1缓存与L2缓存的数据交换量b1以及L2缓存与GPU内存的数据交换量b2; 步骤二:拟合核函数参数在不同GPU资源下的变化曲线; 拟合的核函数参数包括:指令的执行速度Sins、GPU时钟速率SGPU、GPU的SM利用率rsm以及GPU经历的周期数CGPU与SM活跃的周期数Csm的比值α与SM利用率的乘积α·rsm; 步骤三:构建单模型推理的时延预测模型; 确定需要预测的模型推理时会被分解出的所有核函数类型; 根据需要预测的模型执行时分配的GPU资源量,通过步骤二确定的核函数参数拟合曲线,确定每个分解出的核函数的各个参数的预测值; 确定单模型推理过程分解出的所有核函数的实际执行时间之和Texec,如式1所示: 其中,n是推理模型分解出的核函数数量,是核函数Ki分解出的低级汇编指令数量,是执行核函数Ki时GPU的指令执行速度,是执行核函数Ki时GPU的时钟速率,C是一个常数,由任意核函数的指令数量除以指令执行速度得到,αi是Ki的GPU总周期数与SM活跃周期数的比值; 通过分析核函数类型获得、以及α通过步骤二确定的核函数Ki的拟合曲线获得; 核函数的总调度时延Tsche与核函数数量、GPU资源量以及批量大小有关,如公式2所示: 其中,tsche是单个核函数的调度时间,bs是模型推理使用的批量大小,rgpu是模型推理分配的GPU资源百分比; 单模型推理时延包括核函数的执行时延以及核函数的调度时延,单模型推理的时延Tinfer如式3所示: Tinfer=TexeC+Tsche3 步骤四:构建多模型共存推理的时延预测模型; 构建与L2缓存以及GPU内存相关的多模型共存推理的时延预测模型,如式4所示: 其中,P为多模型共存推理的时延预测模型相比于单独运行的时延增长百分比,Bpredict以及分别为待预测的神经网络模型和第j个共存的神经网络模型在单独执行过程中所有核函数的L1缓存与L2缓存的数据交换量以及L2缓存与GPU内存的数据交换量之和,通过步骤一中获取的每个核函数的b1和b2累加得到,M为除待预测的神经网络模型外的其他共存模型的数量之和,k1、k2、k3、k4以及C1为多模型共存推理的时延预测模型中的参数; 确定多模型共存推理的时延预测模型中的参数,具体包括以下子步骤: 步骤4.1收集待预测的神经网络模型与其他神经网络模型在不同批量和GPU资源分配量情况下多模型共存推理的时延预测模型相比于单独运行的时延增长百分比P; 步骤4.2采用数据拟合的方法确定多模型共存推理的时延预测模型中的参数k1、k2、k3、k4以及C1,完成多模型共存推理的时延预测模型的构建; 步骤五:进行实际时延预测: 将步骤三构建的单模型推理的时延预测模型以及步骤四构建的多模型共存推理的时延预测模型部署至云端服务器; 对于单模型推理的时延预测,获取待预测模型的核函数种类,采用步骤三构建的单模型推理的时延预测模型,通过公式1、公式2以及公式3得到单模型推理的时延预测结果; 对于多模型共存推理的时延预测,获取每个待预测模型的核函数种类,采用步骤四构建的多模型共存推理的时延预测模型,通过公式4得到多模型共存推理下待预测模型相比单独运行时的时延增长百分比; 结合单模型推理的时延预测结果以及多模型共存推理下待预测模型相比单独运行时的时延增长百分比得到共存推理时延预测值。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京理工大学,其通讯地址为:100081 北京市海淀区中关村南大街5号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励