Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
专利交易 积分商城 国际服务 IP管家助手 科技果 科技人才 商标交易 会员权益 需求市场 关于龙图腾 更多
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 北京大学崔斌获国家专利权

北京大学崔斌获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉北京大学申请的专利一种支持并行热切换的大模型训练方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119558371B

龙图腾网通过国家知识产权局官网在2026-02-13发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411501855.2,技术领域涉及:G06N3/08;该发明授权一种支持并行热切换的大模型训练方法及系统是由崔斌;葛浩;符芳诚;李昊洋;王煊宇;林晟;赵通设计研发完成,并于2024-10-25向国家知识产权局提交的专利申请。

一种支持并行热切换的大模型训练方法及系统在说明书摘要公布了:本发明公开一种支持并行热切换的大模型训练方法及系统,属于大模型训练技术领域。所述方法包括:生成一逻辑计算图,所述逻辑计算图用于表示多组不同的并行策略组合;编译所述逻辑计算图,生成多个可执行计算图;其中,每一个可执行计算图对应一组并行策略组合;在多个可执行计算图中选取用于初始化大模型状态的初始化图,并根据任两组并行策略组合之间热切换代价,编排可执行计算图之间的执行顺序;基于所述初始化图以及可执行计算图之间的执行顺序进行大模型的训练。本发明不仅可以保证每个分组内的序列计算量工作负载大致接近,还可以使得并行策略能够在模型训练过程中动态地切换,并正常完成模型的梯度累积和更新。

本发明授权一种支持并行热切换的大模型训练方法及系统在权利要求书中公布了:1.一种支持并行热切换的大模型训练方法,其特征在于,所述方法包括: 生成一逻辑计算图,所述逻辑计算图用于表示多组不同的并行策略组合; 编译所述逻辑计算图,生成多个可执行计算图;其中,每一个可执行计算图对应一组并行策略组合; 在多个可执行计算图中选取用于初始化大模型状态的初始化图,并根据任两组并行策略组合之间热切换代价,编排可执行计算图之间的执行顺序; 基于所述初始化图以及可执行计算图之间的执行顺序进行大模型的训练; 其中,所述生成一逻辑计算图,包括: 获取并行策略,并根据所述并行策略处理的数据序列长度进行并行策略的分组; 将每组并行策略组合的参数和输入变量绑定多组分布式状态; 在一个分布式张量架构下,对多组分布式状态进行推导,并通过插入作为占位符使用的假算子来处理不同并行策略推导过程中在中间算子上的差异,以将不同并行策略使用一张逻辑计算图表示; 所述在多个可执行计算图中选取用于初始化大模型状态的初始化图,并根据任两组并行策略组合之间热切换代价,编排可执行计算图之间的执行顺序,包括: 获取各组并行策略组合所对应的模型切分粒度; 将模型切分粒度最小的并行策略组合所对应的可执行计算图,作为用于初始化大模型状态的初始化图; 将一个全局批处理内的数据按照序列长度进行分组,以对应于各组的并行策略组合; 在分组数据上计算任两组并行策略组合之间热切换代价L=sumViinterBinter+sumViintraBintra;其中,Viinter表示机间通信量,Binter表示机间通信带宽,Viintra表示机内通信量,Bintra表示机内通信带宽; 结合热切换开销最小化所有并行策略组合之间的热切换代价,得到可执行计算图之间的执行顺序;其中,所述热切换开销是基于消息合并和布局优化对通信开销和显存拷贝开销进行优化得到。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京大学,其通讯地址为:100871 北京市海淀区颐和园路5号北京大学;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。