华东师范大学徐飞获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉华东师范大学申请的专利基于DNN算子并行的深度学习推理加速方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN117196037B 。
龙图腾网通过国家知识产权局官网在2025-08-12发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202311157590.4,技术领域涉及:G06N5/04;该发明授权基于DNN算子并行的深度学习推理加速方法是由徐飞;陈奥东设计研发完成,并于2023-09-08向国家知识产权局提交的专利申请。
本基于DNN算子并行的深度学习推理加速方法在说明书摘要公布了:本发明公开了一种基于DNN算子并行的深度学习推理加速方法,包括一个深度神经网络(DeepNeuralNetwork,DNN)算子的流分配器和一个DNN算子发射器。具体而言,利用用户提供的DNN模型和输入张量(即推理数据),流分配器首先依据DNN模型结构确定算子所分配的CUDA流;然后,通过收集模型推理产生的离线性能数据,DNN算子发射器进一步使用基于资源需求和干扰感知的算子调度算法,在GPU上优化算子发射顺序;最后,结合CUDA流分配方案和算子发射顺序生成并行化的CUDAGraph,从而在GPU上实现高效的DNN推理。
本发明授权基于DNN算子并行的深度学习推理加速方法在权利要求书中公布了:1.一种基于DNN算子并行的深度学习推理加速方法,其特征在于,具体包括以下步骤: 步骤1:提交DNN模型与输入数据; 步骤2:根据模型结构生成流分配方案; 步骤3:取一个批次数据运行DNN一次,获取运行过程中算子对GPU的资源需求; 步骤4:基于步骤3所获取的资源需求以及算子所属类别,确定一个干扰感知且能够降低GPU空闲时间的算子发射顺序; 步骤5:基于步骤2的流分配方案与步骤4的算子发射顺序,捕获具体执行过程,生成一个能够在GPU上并行执行算子的CUDAGraph;其中: 所述步骤2,具体包括:将DNN模型转换为计算图模式,以拓扑排序的顺序遍历计算图中的节点;对于每一个节点,遍历其所有父亲节点,直到找到一个父亲节点满足当前节点为其第一个后继节点,然后将当前节点的流设置为与该父亲节点所在的流一致;如果找不到满足条件的父亲节点,则将当前节点的流设置为一个新创建的流; 所述步骤4,具体包括:首先获取所有入度为0的待发射算子,并将这些待发射算子根据算子所属类别即访存密集型与计算密集型分成两个队列,分别为访存队列与计算队列;循环执行以下步骤直到两个队列均为空,即每次发射算子时交替选择两个队列中的非空队列,并从选择后的队列中选择算子资源需求最少的算子进行发射;发射之后更新算子的入度,然后将入度为0的算子根据其所属类别分别添加到访存密集型与计算密集型的两个队列中。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人华东师范大学,其通讯地址为:200241 上海市闵行区东川路500号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。