Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
专利交易 商标交易 积分商城 国际服务 IP管家助手 科技果 科技人才 会员权益 需求市场 关于龙图腾 更多
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 东北大学穆元震获国家专利权

东北大学穆元震获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉东北大学申请的专利基于Hopper架构GPU的BLAS3结构化算子加速计算系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN121560581B

龙图腾网通过国家知识产权局官网在2026-04-14发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202610099168.5,技术领域涉及:G06F9/50;该发明授权基于Hopper架构GPU的BLAS3结构化算子加速计算系统是由穆元震;姜徐;唐月;刘峻一;梁浩纯;罗贤橦设计研发完成,并于2026-01-26向国家知识产权局提交的专利申请。

基于Hopper架构GPU的BLAS3结构化算子加速计算系统在说明书摘要公布了:本发明提供一种基于Hopper架构GPU的BLAS3结构化算子加速计算系统,涉及计算机技术领域。该系统包括:计算单元判别模块,确定当前算子在运行时所使用的计算单元,估计当前算子在张量核心执行路径的最大行维度上界;指令感知分块参数确定模块实时动态确定输入矩阵最优的分块大小和数量;分块矩阵加载和对齐模块对输入矩阵和待更新矩阵以分块大小为基本块划分子矩阵并完成对应子矩阵的加载;算子核函数执行模块完成输入矩阵所对应子矩阵的双精度浮点数数组的共享内存结构化并行加载与存储,并调用张量核心进行乘加累积计算;流水线与并发调度模块将块计算任务加入相应任务集,对任务集进行多流并发调度。

本发明授权基于Hopper架构GPU的BLAS3结构化算子加速计算系统在权利要求书中公布了:1.一种基于Hopper架构GPU的BLAS3结构化算子加速计算系统,其特征在于:包括计算单元判别模块、指令感知分块参数确定模块、分块矩阵加载和对齐模块、算子核函数执行模块、流水线与并发调度模块; 所述计算单元判别模块在算子的目标采样区段,通过性能采集工具实时动态采集GPU张量核心相关度量,确定当前算子在运行时所使用的计算单元,并采用渐进自适应探测窗口增长策略在线估计当前算子在张量核心执行路径的最大行维度上界; 所述指令感知分块参数确定模块动态感知张量核心计算指令使用的张量块尺寸的硬件资源和输入矩阵维度信息,通过基于张量上界约束的整映射协同分块生成策略,实时动态确定输入矩阵最优的分块大小参数和分块数量参数;所述张量上界约束为算子在张量核心执行路径的最大行维度上界; 所述分块矩阵加载和对齐模块对输入矩阵和待更新矩阵以分块大小为基本块划分为子矩阵,并创建分配双精度浮点数数组,完成对应子矩阵的加载; 所述算子核函数执行模块用于在GPU上以张量核心对齐运算单元块为基本粒度,依据张量映射描述结构通过直接内存访问的方式完成输入矩阵所对应子矩阵的双精度浮点数数组的共享内存结构化并行加载与存储,并通过使用“到达-等待”式同步屏障协调异步搬运与计算;在寄存器级通过线程序号完成行或者列优先对齐并通过内联汇编指令的方式调用张量核心以线程组协同的方式进行矩阵块级乘加累积计算并将结果累积至寄存器片段中,随后按结构区域感知规则进行结果分片的协作式写回; 所述流水线与并发调度模块针对不同算子的结构化特征,基于块级任务属性与运算数据依赖,将块计算任务加入相应任务集,对任务集进行多流并发调度,并通过设计基于波容量的CUDA流动态优化策略,在运行时对CUDA流数目进行动态自适应配置,以最大化流式多处理器的利用率。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人东北大学,其通讯地址为:110819 辽宁省沈阳市和平区文化路三号巷11号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。