电子科技大学杨浩淼获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉电子科技大学申请的专利一种基于动态层选择的高效联邦学习大模型训练方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119026707B 。
龙图腾网通过国家知识产权局官网在2025-06-27发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202410907389.1,技术领域涉及:G06N20/20;该发明授权一种基于动态层选择的高效联邦学习大模型训练方法是由杨浩淼;薛冬昀;黄大彬;梁雯倩;黄云帆;宋敬仪;熊长春;李洪伟;李发根设计研发完成,并于2024-07-08向国家知识产权局提交的专利申请。
本一种基于动态层选择的高效联邦学习大模型训练方法在说明书摘要公布了:本发明公开了一种基于动态层选择的高效联邦学习大模型训练方法,涉及联邦学习的高效训练技术领域。在本发明中,由服务器端选出部分最重要的层,交由客户端进行训练,即将部分计算量摊派到服务器端上,而客户端仅需更新极少部分的层的参数量,从而实现了对客户端计算压力与上传压力的极大减少,显著降低了客户端的计算压力和通信压力;本发明选出部分最重要的层具体为:服务器基于少量的本地训练数据对待训练模型进行初步训练,并获取待训练模型的每一线性层的梯度值,并基于该梯度值计算每一线性层的重要性评分,服务器选择前若干最高重要性评分和后若干个最低重要评分所对应的线性层作为当前的重要层;客户端根据本地训练结果仅训练部分最重要的层,从而极大减少了训练的计算需求和上传数据的参数量。同时,本发明无需对模型进行额外更改,因而具有很强的可扩展性。
本发明授权一种基于动态层选择的高效联邦学习大模型训练方法在权利要求书中公布了:1.一种基于动态层选择的高效联邦学习大模型训练方法,构建一套客户端低计算压力与通信压力的大模型联邦学习训练框架,用于在不侵犯用户隐私的情况下训练大语言模型,其特征在于,在包括服务器和若干个客户端的联邦学习系统中执行下列步骤: 步骤1,服务器确定待训练模型,该待训练模型为大型语言模型的诊断大模型,用于医疗预测; 服务器对待训练模型的模型参数进行量化,并冻结待训练模型的所有线性层; 服务器基于参数高效微调LoRA策略对待训练模型的所有线性层进行模型参数微调; 服务器再将微调后的待训练模型广播到所有参与训练的客户端; 步骤2,服务器基于当前待训练模型的初步训练结果进行动态层选择,并将选择出的待训练模型的网络层的层号发送到所有参与训练的客户端; 其中,服务器基于当前待训练模型的初步训练结果进行动态层选择具体包括: 服务器基于本地训练数据对待训练模型进行初步训练,并获取待训练模型的每一网络层的梯度值; 对于待训练模型的每一线性层,基于该梯度值计算各层的重要性评分Il;其中,参与初步训练的本地数据的数据量不超过指定值; 服务器选择前α个最高重要性评分Il所对应的线性层和后β个最低重要性评分Il所对应的线性层作为当前选择出的动态层,其中,α和β的取值为预设值,且α和β小于或等于待训练模型的网络层总层数; 步骤3,客户端在接收到服务器指定的层号后,基于客户端的本地训练数据集对当前待训练模型进行本地训练,计算指定网络层的梯度作为客户端的更新梯度并发送回服务器; 步骤4,服务器聚合客户端发送的更新梯度得到聚合后的各指定网络层的全局梯度,再基于服务器本地在初步训练中获取的当前待训练模型的各非指定网络层的梯度值得到当前待训练模型在当前轮联邦学习的全局模型并发送到所有参与训练的客户端,得到下一轮联邦学习的待训练模型; 重复步骤2至步骤4进行多轮联邦学习,当满足预置的训练收敛条件时停止。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人电子科技大学,其通讯地址为:611731 四川省成都市高新区(西区)西源大道2006号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。