沪渝人工智能研究院齐鹏获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉沪渝人工智能研究院申请的专利一种动静态合并的算子调度与高低位扫描轻量化加速方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120430354B 。
龙图腾网通过国家知识产权局官网在2025-08-26发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510912304.3,技术领域涉及:G06N3/0495;该发明授权一种动静态合并的算子调度与高低位扫描轻量化加速方法是由齐鹏;林冠;何方舟设计研发完成,并于2025-07-03向国家知识产权局提交的专利申请。
本一种动静态合并的算子调度与高低位扫描轻量化加速方法在说明书摘要公布了:本发明涉及深度学习模型优化技术领域,尤其涉及一种动静态合并的算子调度与高低位扫描轻量化加速方法,包括建立形状通用空间S并划分为多个相同的分块;将实际shape映射至形状通用空间后调度shape算子进行计算;根据实际shape映射结果构建成本模型,用于平衡微内核性能、硬件内核占用惩罚与shape填充惩罚间的最优成本;根据实际shape和成本模型分配最优微内核;对深度神经网络模型的参数的高位和低位进行扫描量化,并使用层级量化敏感度调整参数精度;有效提升模型在低精度下的稳定性与推理性能。
本发明授权一种动静态合并的算子调度与高低位扫描轻量化加速方法在权利要求书中公布了:1.一种动静态合并的算子调度与高低位扫描轻量化加速方法,其特征在于,包括以下步骤: S1.建立形状通用空间S并划分为多个相同的分块;将实际shape映射至形状通用空间后调度shape算子进行计算; 步骤S1具体包括: S11.将形状通用空间S划分为n个大小为s×s的分块; S12.将实际shape与形状通用空间S起始位置对齐后进行映射;将分块划分为满分块,未满分块和空分块三种类型,其中, 若一个分块所有区域均被实际shape的数据映射,则该分块为满分块;若一个分块只有部分区域被实际shape的数据映射,则该分块为未满分块;若一个分块所有区域均未被实际shape的数据映射,则该分块为空分块; S13.映射完成后判断形状通用空间S是否处于非完美平铺情况,若是,则执行步骤S14,若不是,则执行步骤S15;其中, 当映射完成后,形状通用空间S内的n个分块中不存在未满分块,则形状通用空间S处于完美平铺情况,否则形状通用空间S处于非完美平铺情况; S14.对所有未满分块进行边界位置检查,调度动态shape算子进行计算; S15.直接调度静态shape算子进行计算; S2.根据实际shape映射结果构建成本模型,用于平衡微内核性能、硬件内核占用惩罚与shape填充惩罚间的最优成本; 根据实际shape映射结果构建成本模型包括: S21.一个微内核处理一个满分块或一个未满分块,获取满分块数量和未满分块数量得到微内核总数量,根据微内核总数量构建硬件内核占用惩罚foPM,表示为 其中,P表示实际shape进行计算所需的理论计算量,Mp表示一个类别为M的微内核单位时间内可提供的最大计算量,表示微内核总数量,k、b为一次拟合函数参数; S22.获取一个微内核的分块处理时间,将其作为微内核性能fMKM; S23.获取对所有未满分块进行边界位置检查所产生的额外计算消耗,将其作为shape填充惩罚fpP,M; S24.构建成本模型CostP为 CostP=fMKM×fOPM×fpP,M; S3.根据实际shape和成本模型分配最优微内核; 计算设备中包括多个类别的微内核,根据实际shape在形状通用空间S的分块映射情况,结合成本模型分配最优微内核,表示为 voteS=argminCostPS,M 其中,voteS表示为实际shape分配的最优微内核;PS,M表示将实际shape映射到形状通用空间S后,采用类别为M的微内核调度shape算子进行计算的完整时间;Cost表示成本模型,argmin表示求集合内最小值操作; S4.对深度神经网络模型的参数的高位和低位进行扫描量化,并使用层级量化敏感度调整参数精度。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人沪渝人工智能研究院,其通讯地址为:401329 重庆市九龙坡区高新区科学谷B1号楼第8至9层整层;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。