清华大学翟季冬获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉清华大学申请的专利预训练大语言模型的微调方法和装置获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN118245896B 。
龙图腾网通过国家知识产权局官网在2025-08-19发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202410382371.4,技术领域涉及:G06F18/2411;该发明授权预训练大语言模型的微调方法和装置是由翟季冬;黄可钊设计研发完成,并于2024-03-29向国家知识产权局提交的专利申请。
本预训练大语言模型的微调方法和装置在说明书摘要公布了:本公开涉及一种预训练大语言模型的微调方法和装置,确定大语言模型训练过程中的至少一个具有对应算子的迭代处理过程,在每个迭代过程开始时接收其他加速器内存储的每个对应算子的参数并完成第一次迭代处理,生成消耗每个算子对应的激活向量。然后再确定第一次迭代处理对应的内存信息以调整大语言模型对应加速器上包括激活向量空间和激活向量空间以外的参数空间的内存空间。将每个算子对应的激活向量存储在激活向量空间,对应得到参数存储至参数空间,并基于参数空间中的参数完成后续的迭代处理过程。本公开在大语言模型的训练过程中自动调节加速器的内存用量并自动缓存需要用到的参数,以通过参数复用减少通信开销,提高整体的吞吐量。
本发明授权预训练大语言模型的微调方法和装置在权利要求书中公布了:1.一种预训练大语言模型的微调方法,其特征在于,用于对大语言模型进行微调的加速器,所述方法包括: 确定大语言模型训练过程中的至少一个迭代处理过程,每个所述迭代处理过程对应至少一个算子,所述大语言模型为经过预训练的模型; 对于每个所述迭代处理过程,接收其他加速器内存储的、该迭代处理过程每个对应算子的参数并完成第一次迭代处理,生成消耗每个所述算子对应的激活向量; 在完成第一次迭代处理后,确定所述第一次迭代处理对应的内存信息; 根据所述内存信息调整用于对大语言模型进行微调的所述加速器上的内存空间,所述加速器的内存空间包括激活向量空间和所述激活向量空间以外的参数空间; 将每个所述算子对应的激活向量存储在所述激活向量空间; 将每个所述算子的参数存储至所述参数空间,并基于所述参数空间中的参数完成所述迭代处理过程。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人清华大学,其通讯地址为:100084 北京市海淀区清华园1号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。