无锡九方科技有限公司周峥获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉无锡九方科技有限公司申请的专利一种并行环境的GPU程序优化方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN121029422B 。
龙图腾网通过国家知识产权局官网在2026-02-03发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511543422.8,技术领域涉及:G06F9/50;该发明授权一种并行环境的GPU程序优化方法是由周峥;王明清;秦莉兰;吴雪;刘凌霄;夏文天设计研发完成,并于2025-10-28向国家知识产权局提交的专利申请。
本一种并行环境的GPU程序优化方法在说明书摘要公布了:本申请提供了一种并行环境的GPU程序优化方法,多个目标模型被配置于GPU集群中进行并行训练,该方法包括:对目标模型的并行训练配置进行策略配置与内存瓶颈预判;利用预判结果,通过并行策略组合与指令级性能监测进行吞吐量优化;对优化过程中出现的指令级瓶颈进行内核重优化,使得模型训练与GPU指令执行效率同步提升。
本发明授权一种并行环境的GPU程序优化方法在权利要求书中公布了:1.一种并行环境的GPU程序优化方法,其特征在于,多个目标模型被配置于GPU集群中进行并行训练,所述方法包括: 对所述目标模型的并行训练配置进行策略配置与内存瓶颈预判; 利用预判结果,通过并行策略组合与指令级性能监测进行吞吐量优化; 对优化过程中出现的指令级瓶颈进行内核重优化,使得模型训练与GPU指令执行效率同步提升; 所述策略配置与内存瓶颈预判,包括:获取所述目标模型的参数规模、所述GPU集群的特性和序列长度约束,基于预置的性能预测模型生成内存可行的并行配置集,并计算所述并行配置集的存储器访问效率以预判全局存储器访问瓶颈风险;所述性能预测模型基于历史基准数据构建,以所述目标模型的参数规模、节点数量、GPU内存为输入,预测不同并行策略组合的理论内存占用与通信开销;所述存储器访问效率的计算公式为: β=k1×B1B2+k2×T1T2; 其中,β为所述存储器访问效率,B1表示实际访存带宽,B2表示理论峰值带宽,T1表示有效访存事务数,T2表示总访存事务数,k1和k2为加权系数,且k1+k2=1; 所述并行策略组合与指令级性能监测,包括:在满足预设的全局批次大小的条件下,动态调整数据并行、张量并行及流水线并行的配比,并同步监测存储器访问效率和指令吞吐率以识别通信瓶颈与指令执行瓶颈;所述动态调整数据并行、张量并行及流水线并行的配比,包括:根据实时监测的所述存储器访问效率和指令吞吐率,建立动态反馈控制系统,当所述存储器访问效率持续低于预设效率阈值且所述指令吞吐率同步下降时,自动触发并行策略重配置,重新分配所述数据并行、所述张量并行和所述流水线并行的计算负载,其中,所述并行策略重配置的约束条件为: MaximizefTP,PP,DP=w1×β+w2×IPC; TP×PP×DP=Ngpu; Mem-U≤Mem-A; GBS≥GBS-T; 其中,Maximizef·为最大化目标函数,TP、PP、DP分别表示所述张量并行的并行度、所述流水线并行的并行度和所述数据并行的并行度,Ngpu表示GPU总数,Mem-U表示模型内存使用量,Mem-A表示可用显存,GBS表示全局批次大小,GBS-T表示目标全局批次大小,w1、w2为权重系数,IPC为每个时钟周期平均执行的指令数; 所述对优化过程中出现的指令级瓶颈进行内核重优化,包括:当监测到共享存储器出现bank-conflicts访问冲突时,重构共享存储器数据布局;当监测到流水线指令出现执行依赖瓶颈时,通过提高线程级并行度或指令级并行度进行优化。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人无锡九方科技有限公司,其通讯地址为:214000 江苏省无锡市滨湖区蠡园开发区吟白路1号研创大厦1701-1室;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励