厦门渊亭信息科技有限公司;湖南渊亭智能科技有限公司洪万福获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉厦门渊亭信息科技有限公司;湖南渊亭智能科技有限公司申请的专利一种大规模模型的分布式训练方法、装置以及设备获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120409554B 。
龙图腾网通过国家知识产权局官网在2025-08-26发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510897525.8,技术领域涉及:G06N3/0455;该发明授权一种大规模模型的分布式训练方法、装置以及设备是由洪万福;俞婷婷;黄在斌设计研发完成,并于2025-07-01向国家知识产权局提交的专利申请。
本一种大规模模型的分布式训练方法、装置以及设备在说明书摘要公布了:本发明公开了一种大规模模型的分布式训练方法、装置以及设备,包括:根据待训练大模型的规模以及训练任务在当前设备上配置多个计算节点,并对每一计算节点的硬件资源和软件资源进行配置,得到搭建后的分布式训练环境;采用不同维度的并行策略对训练数据集以及所述待训练大模型进行划分,得到对应的多个数据块以及多组模型层;通过加载模型参数、多个数据块以及多组模型层至所述分布式训练环境中对应的计算节点上,启动训练流程;在训练过程中,对每一计算节点的运行状态进行监测,通过引入自适应调度机制动态调整对应计算节点的训练任务,并在满足预设的训练终止条件时,保存训练完成的目标大模型。能够满足高效、稳定、低成本的训练需求。
本发明授权一种大规模模型的分布式训练方法、装置以及设备在权利要求书中公布了:1.一种大规模模型的分布式训练方法,其特征在于,所述方法包括: 根据待训练大模型的规模以及训练任务在当前设备上配置多个计算节点,并对每一计算节点的硬件资源和软件资源进行配置,得到搭建后的分布式训练环境; 采用不同维度的并行策略对训练数据集以及所述待训练大模型进行划分,得到对应的多个数据块以及多组模型层,其中,所述并行策略包括数据并行、模型并行、流水线并行以及上下文并行; 其中,所述采用不同维度的并行策略对训练数据集以及所述待训练大模型进行划分,包括: 采用数据并行的并行策略将所述训练数据集按照计算节点的数量划分为多个数据块,并根据每一计算节点的计算能力和存储容量动态调整数据块大小; 通过模型并行的并行策略对所述待训练大模型进行分层分割,得到多组模型层,并将每一组模型层分配至对应的计算节点; 采用流水线并行的并行策略将所述待训练大模型划分为多个连续阶段,并分配至对应的计算节点上顺序执行; 采用上下文并行的并行策略,根据输入序列的上下文特征对输入序列进行分段,将各片段分配至匹配的计算节点并动态调整注意力机制; 其中,所述采用上下文并行的并行策略,根据输入序列的上下文特征对输入序列进行分段,将各片段分配至匹配的计算节点并动态调整注意力机制,包括: 根据输入序列的长度和注意力权重分布对输入序列进行提取,得到上下文特征; 基于上下文特征,根据预设窗口大小对输入序列进行分段,并根据每一片段的上下文复杂度以及当前对应的计算节点的负载状态,将不同的上下文复杂度对应的片段分配至匹配的计算节点; 根据不同片段对应的上下文复杂度对注意力机制进行动态调整,在每一计算节点完成当前片段的处理后,将上下文复杂度的信息反馈至调度器,通过调度器根据上下文复杂度的信息优化下一微批次的任务划分与资源调度; 通过加载模型参数、多个数据块以及多组模型层至所述分布式训练环境中对应的计算节点上,启动训练流程; 在训练过程中,对每一计算节点的运行状态进行监测,通过引入自适应调度机制动态调整对应计算节点的训练任务,并在满足预设的训练终止条件时,保存训练完成的目标大模型。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人厦门渊亭信息科技有限公司;湖南渊亭智能科技有限公司,其通讯地址为:361000 福建省厦门市软件园二期望海路61号801单元N8-01;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。