之江实验室李婷获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉之江实验室申请的专利一种模型训练的控制方法、装置及介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120087420B 。
龙图腾网通过国家知识产权局官网在2025-08-15发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510571849.2,技术领域涉及:G06N3/0455;该发明授权一种模型训练的控制方法、装置及介质是由李婷;孙啸峰;陈红阳;邓潇设计研发完成,并于2025-05-06向国家知识产权局提交的专利申请。
本一种模型训练的控制方法、装置及介质在说明书摘要公布了:本申请公开了一种模型训练的控制方法、装置及介质,该方法包括:构建待训练模型;并获取用于训练待训练模型的训练数据集;对待训练模型进行参数分块,得到多个参数块;为各参数块和未分块的目标参数分别分配一个初始海森近似信息,以替换原始海森信息;确定当前迭代的目标海森近似信息;基于当前迭代的目标海森近似信息,通过训练数据集对待训练模型进行迭代训练,直至达到迭代训练条件得到目标模型为止。由此,相比计算完整的海森矩阵,本申请通过对模型参数进行分块,并为每个参数块和未分块的目标参数分配一个海森近似信息,每个参数块可以单独进行处理,减少计算量的同时,降低存储需求。
本发明授权一种模型训练的控制方法、装置及介质在权利要求书中公布了:1.一种模型训练的控制方法,其特征在于,所述方法包括: 构建待训练模型;并获取用于训练所述待训练模型的训练数据集;其中,所述训练数据集为文本数据集; 对所述待训练模型进行参数分块,得到多个参数块; 为各所述参数块和未分块的目标参数分别分配一个初始海森近似信息,以替换原始海森信息; 确定当前迭代的目标海森近似信息; 基于所述当前迭代的目标海森近似信息,通过所述训练数据集对所述待训练模型进行迭代训练,直至达到迭代训练条件得到目标模型为止; 所述待训练模型为基于Transformer架构的模型;对所述待训练模型进行参数分块,包括: 对于所述待训练模型中的矩阵参数,以行为单位进行参数分块;其中,所述矩阵参数包括所述Transformer架构的嵌入层、所述Transformer架构中多头注意力层的值矩阵、所述多头注意力层的输出层、所述待训练模型的输出层、所述Transformer架构的全连接层; 对于所述多头自注意力层的查询矩阵和键矩阵,以注意力头为单位进行参数分块; 对于所述Transformer架构的层归一化层,以整层为单位进行参数分块; 所述目标海森近似信息包括目标海森近似标量和目标海森近似矩阵;所述确定当前迭代的目标海森近似信息,包括:根据上一轮迭代的目标海森近似信息,确定当前迭代的目标海森近似信息; 所述根据上一轮迭代的目标海森近似信息,确定当前迭代的目标海森近似信息,包括: 根据上一轮迭代的目标海森近似标量和当前迭代的梯度海森近似值的均值,确定当前迭代的目标海森近似标量; 根据上一轮迭代的目标海森近似矩阵,确定所述当前迭代的目标海森近似矩阵。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人之江实验室,其通讯地址为:311121 浙江省杭州市余杭区中泰街道科创大道之江实验室;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。