西安电子科技大学王源获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉西安电子科技大学申请的专利一种基于预训练模型的类增量学习方法、系统、设备及介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119377777B 。
龙图腾网通过国家知识产权局官网在2025-11-04发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411675135.8,技术领域涉及:G06F18/241;该发明授权一种基于预训练模型的类增量学习方法、系统、设备及介质是由王源;纪建;徐成伟;刘丽泽设计研发完成,并于2024-11-21向国家知识产权局提交的专利申请。
本一种基于预训练模型的类增量学习方法、系统、设备及介质在说明书摘要公布了:本发明公开了一种基于预训练模型的类增量学习方法、系统、设备及介质,包括以下步骤;步骤1:在第一阶段的类增量学习中,针对于第一个任务D1,通过提示性信息Prompt嵌入的方法来微调预训练模型ViT;得到微调后的预训练模型;步骤2:对于步骤1得到的微调预训练模型中的嵌入层函数和微调前的预训练模型ViT的嵌入层函数进行合并并且冻结,得到合并模型;步骤3:使用步骤2得到的合并模型从头进行类增量训练,最终得到具有强泛化性和稳健性的类增量模型;步骤4:对于测试样本,使用步骤3得到的类增量模型进行预测,计算最终的分类精度。本发明在保证模型自适应性的同时也保留了模型的泛化能力。
本发明授权一种基于预训练模型的类增量学习方法、系统、设备及介质在权利要求书中公布了:1.一种基于预训练模型的类增量学习方法,其特征在于,包括以下步骤; 步骤1:在第一阶段的类增量学习中,针对于第一个任务D1,通过提示性信息Prompt嵌入的方法来微调预训练模型ViT;得到微调后的预训练模型; 步骤2:对于步骤1得到的微调预训练模型中的嵌入层函数和微调前的预训练模型ViT的嵌入层函数进行合并并且冻结,得到合并模型; 步骤3:使用步骤2得到的合并模型从头进行类增量训练,最终得到具有强泛化性和稳健性的类增量模型; 步骤4:对于测试样本,使用步骤3得到的类增量模型进行预测,计算最终的分类精度; 所述步骤1中,第一个任务D1的数据集采用CIFAR100上的前10个类,CUB200,ImageNetR,ImageNetA上的前20个类,通过第一个任务对于预训练模型ViT进行微调,与ImageNet21k数据集之间的域差异进行弥补; 所述的步骤1的微调预训练模型的具体过程为: 步骤1.1:对于T个类增量任务{D1,D2,…,DT},是第t个类增量任务,包括有Nt个样本,是第t个类增量任务的第i个样本,是对应的第t个类增量任务的第i个样本的标签值,针对于第一个任务中的输入图片x,通过查询函数得到查询值qx,这里的查询值是指未经过微调的预训练模型ViT提取到的输入图片x的全局特征; 步骤1.2:先得到注意力向量A与查询值qx之间的哈达玛乘积,再计算出哈达玛乘积与键K之间的余弦相似度,得到权重,公式如下: α=cosqx⊙A,K α={cosqx⊙A1,K1,cosqx⊙A2,K2,…,cosqx⊙AM,KM} 注意力向量A和键值K都是一组可学习的参数,其中每一个键值K都对应着一个注意力向量A,D代表预训练模型ViT嵌入层向量的维度,M代表Prompt提示池长度,⊙是哈达玛乘积,cos·是计算余弦相似度; 步骤1.3:将步骤1.2计算出来的权重α与提示性信息Prompt进行加权求和,得到新任务的提示性信息,公式如下: αm表示第m个权重,表示当前的Prompt信息,Lp为提示性信息Prompt大小,D代表预训练ViT嵌入层向量的维度,M代表Prompt提示池长度; 步骤1.4:预训练模型ViT的嵌入函数φ·将输入图片x划分成L个patch进行展平,并使用预训练ViT的全连接层线性投影到高维空间再与位置编码相加得到自注意力层的输入嵌入特征查询hQ,键hK,值hV,其中h=hQ=hK=hV,多头自注意力层的输出用公式表示: MSAhQ,hK,hV=concath1,…,hnWO hi=AttentionhQWiQ,hKWiK,hVWiV 这里的WO,WiQ,WiK,WiV都是投影矩阵,n是多头自注意力层的头数,concat·表示进行连接,Attention·表示ViT中的头自注意力层; 将步骤1.3得到的提示性信息p嵌入到预训练模型ViT的多头自注意力层中,公式如下: fp,h=MSAhQ,[pK;hK],[pV;hV] 这里的f·表示自注意力层的输出,将提示性信息p平均分成两部分 步骤1.5输入图片x在经过步骤1.4得到的提示性信息Prompt嵌入的多头自注意力层fp,h·后,进入到最后的分类器层中进行预测,加入查询损失进行优化,得到最终的损失函数,公式表示: 这里的L·表示交叉熵分类损失,λ是平衡超参数,cos·是计算余弦相似度; 步骤1.6将步骤1.5得到的损失函数进行反向传播,更新提示性信息Prompt,键值K,注意力向量A,最终得到微调预训练模型,从而得到模型中的嵌入函数φ*·,嵌入函数φ*x将会提取出输入图片x的分块patch特征以及全局信息; 所述的步骤2的将模型嵌入层函数进行合并并且冻结的具体过程为: 在得到微调预训练模型以后,将嵌入函数φ*·和原始的预训练模型的嵌入函数φ·进行合并,二者的维度相同,沿最后一个维度直接进行拼接,得到合并的模型嵌入函数[φ*·,φ·],对于嵌入层函数进行冻结,在训练过程中不再更新嵌入函数的参数,将嵌入函数参数的requires_grad设置为false。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人西安电子科技大学,其通讯地址为:710071 陕西省西安市雁塔区太白南路2号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励