齐鲁工业大学(山东省科学院);山东省计算中心(国家超级计算济南中心)田敏获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉齐鲁工业大学(山东省科学院);山东省计算中心(国家超级计算济南中心)申请的专利申威架构上面向CNN的批量矩阵乘并行优化方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120508740B 。
龙图腾网通过国家知识产权局官网在2025-09-23发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511020934.6,技术领域涉及:G06F17/16;该发明授权申威架构上面向CNN的批量矩阵乘并行优化方法及系统是由田敏;张龙;吴晓明;霍吉东;潘景山;郭莹;杜伟设计研发完成,并于2025-07-24向国家知识产权局提交的专利申请。
本申威架构上面向CNN的批量矩阵乘并行优化方法及系统在说明书摘要公布了:本发明提出了申威架构上面向CNN的批量矩阵乘并行优化方法及系统,属于人工智能并行优化技术领域;包括:将卷积层中的输入特征图和卷积核分别转换为输入矩阵和权重矩阵,并批量处理为多组独立的矩阵乘法任务;主核将矩阵乘法任务封装为参数结构体数组,通过单次DMA传输至从核,从核根据线程总数和矩阵高度,采用动态行块划分算法将输入矩阵的行划分为行块任务;并对分配的独立行块执行子矩阵乘法计算,采用双缓冲DMA异步预取矩阵子块,执行矩阵乘累加计算。本发明能够提高批量矩阵乘在申威处理器主从核间的并行处理效率,优化算法性能。
本发明授权申威架构上面向CNN的批量矩阵乘并行优化方法及系统在权利要求书中公布了:1.申威架构上面向CNN的批量矩阵乘并行优化方法,其特征在于,包括:所述并行优化方法由主核和多个从核实现; 所述主核的实现过程包括: 将CNN卷积层中的输入特征图和卷积核分别转换为输入矩阵和权重矩阵,并按批量处理形成多组独立的矩阵乘法任务; 将矩阵乘法任务中的参数封装为连续内存的参数结构体数组,通过单次DMA传输至从核,并触发从核程序启动信号; 所述参数结构体数组包含批量大小、矩阵维度参数、源矩阵内存地址以及目标矩阵内存地址;其中,所述批量大小与独立的矩阵乘法任务的组数相对应; 多个所述从核的实现过程包括: 异步读取所述参数结构体数组并自主推导任务范围;根据线程总数和矩阵高度,采用动态行块划分算法将输入矩阵的行划分为行块任务,每个从核线程按线程ID分配独立行块; 动态行块划分的数学公式表示为: ; 其中,表示每个线程需要处理的矩阵乘任务的行数,表示线程ID,表示所分配的从核线程数,表示矩阵高度; 所述动态行块划分算法的执行过程包括:计算输入矩阵的基础行数和余量行数,若从核线程的线程ID小于余量行数,则分配行数在基础行数的基础上加1,此时,起始行等于线程ID与所分配行数的乘积;若从核线程的线程ID不小于余量行数,则分配行数与基础行数一致,此时,起始行等于线程ID与所分配行数的乘积的基础上,与余量行数的相加值; 对分配的独立行块执行子矩阵乘法计算,并采用双缓冲DMA异步预取输入矩阵和权重矩阵的矩阵子块,执行矩阵乘累加计算,完成后将结果回传主存; 所述双缓冲DMA的执行过程包括:分别为输入矩阵和权重矩阵的子块分配两个LDM缓冲区;在计算当前子块时,异步预取下一子块至空闲缓冲区;通过DMA同步指令确保当前计算数据就绪,交替切换计算缓冲区与预取缓冲区。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人齐鲁工业大学(山东省科学院);山东省计算中心(国家超级计算济南中心),其通讯地址为:250000 山东省济南市长清区大学路3501号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。