电子科技大学李宏亮获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉电子科技大学申请的专利一种基于多模态适配器的第一视角增量行为识别方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119538049B 。
龙图腾网通过国家知识产权局官网在2025-11-18发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411654641.9,技术领域涉及:G06F18/241;该发明授权一种基于多模态适配器的第一视角增量行为识别方法是由李宏亮;戴瑀;王岚晓;邱荷茜;邱奔流;赵泰锦;问海涛;吴庆波;孟凡满;许林峰设计研发完成,并于2024-11-19向国家知识产权局提交的专利申请。
本一种基于多模态适配器的第一视角增量行为识别方法在说明书摘要公布了:该发明公开了一种基于多模态适配器的第一视角增量行为识别方法,本发明涉及视频图像处理领域。本发明旨在通过时序蒸馏损失将旧任务识别模型中的时序感知能力迁移到当前任务识别模型中,并结合模态平衡适配器,通过旧任务识别模型的特征高斯采样和当前任务识别模型的特征高斯采样实现分类层对多任务的增量识别。首先在冻结的ImageNet数据集上预训练的Vit‑B16模型的所有Transformer编码器的前向网络层的前后以残差的形式插入多模态时序感知适配器,实现在Transformer编码器中从视觉模态、加速度模态和陀螺仪模态的特征中提取时序信息,并通过时序蒸馏损失保证当前任务识别模型和旧任务识别模型的时序信息尽可能靠近。最后,通过计算当前任务识别模型的特征均值和方差构建当前任务的特征高斯分布,并结合旧任务识别模型的特征高斯分布实现多任务的特征高斯采样,在当前任务的分类层前插入模态平衡适配器,利用采样特征和模态平衡适配器再次训练当前任务的分类层,以提高分类层对各任务的识别能力。
本发明授权一种基于多模态适配器的第一视角增量行为识别方法在权利要求书中公布了:1.一种基于多模态适配器的第一视角增量行为识别方法,该方法包括: 步骤1:基于ImageNet数据集上预训练好的Vit-B16模型,Vit-B16模型包括:1个PatchEmbedding层,12个Transformer编码器和1个分类层,其中Transformer编码器由多头自注意力层MHSA和前向网络层MLP组成; 首先冻结Vit-B16的PatchEmbedding层和所有Transformer编码器,而后,在冻结的预训练Vit-B16模型的所有Transformer编码器的前向网络层的前后以残差连接的方式都插入多模态时序感知适配器,并输入旧任务数据集给插入了多模态时序感知适配器的Vit-B16模型,多模态时序感知适配器依次由3个下采样模块、1个多模态时序融合模块F·和3个上采样模块组成; 所述3个下采样模块分别为和3个上采样模块分别为和对于送入第i个多模态时序感知适配器的视觉特征vi、加速度特征ai和陀螺仪特征gi,分别送入由线性层组成的下采样模块和得到下采样特征和 步骤2:对于各模态的下采样特征进行分离,得到各模态CLStoken特征和Patch特征并将CLStoken特征拼接在一起送入多模态时序融合模块F·,得到时序特征fi=FCLSi;而后,所有CLStoken特征加上时序特征fi后与Patch特征进行拼接,送入ReLU激活层σ·进行非线性映射;再将映射特征送入由线性层组成的上采样模块和得到时序增强后的视觉特征vi′、加速度特征ai′和陀螺仪特征gi′; 而后,将时序增强后的视觉特征vi′、加速度特征ai′和陀螺仪特征gi′加到Transformer编码器的前向网络层输出上; 步骤3:在旧任务数据上,训练插入了多模态时序感知适配器的Vit-B16模型,训练后的插入了多模态时序感知适配器的Vit-B16模型记为旧任务识别模型S;旧任务共有c个类别,计算旧任务各类的特征均值μo={μ1,…,μc}和方差∑o={∑1,…,∑c},构建旧任务的特征高斯分布 步骤4:当前任务的类别数为d-c,将原先对c个类别进行分类的旧任务分类层增量的拓展为对d个类别进行分类的当前任务分类层;将当前任务数据集送入旧任务识别模型S,得到第i个Transformer编码器的多模态时序感知适配器的旧模型时序特征fio,并与当前识别模型T的第i个Transformer编码器的多模态时序感知适配器的当前模型时序特征fin计算时序蒸馏损失 当前识别模型T的总损失为: 其中,为当前识别模型T对当前任务数据集的交叉熵分类损失; 步骤5:利用训练好的当前任务识别模型T计算当前任务各类的特征均值μn={μc+1,…,μd}和方差∑n={∑c+1,…,∑d},构建当前任务的特征高斯分布从旧任务的特征高斯分布和当前任务的特征高斯分布中对各类的特征样本进行采样,组成生成特征集其中第j类的生成特征集N为采样数量; 步骤6:在当前任务的分类层前插入3个模态平衡适配器,分别为:视觉模态平衡适配器、加速度模态平衡适配器、陀螺仪模态平衡适配器;每个模态平衡适配器由下采样模块、非线性映射层和上采样模块构成;对于第t个批次Bt的数据先拆分成视觉生成特征加速度生成特征和陀螺仪生成特征而后,分别送入对应的模态适配器中: 其中,Uv、Ua和Ug分别代表视觉、加速度和陀螺仪三个模态的上采样模块,σ·代表非线性映射ReLU层,Dv、Da和Dg分别代表视觉、加速度和陀螺仪三个模态的下采样模块; 而后,将模态平衡适配器A·的输出加到对应模态的生成特征上,得到模态平衡的视觉特征加速度特征和陀螺仪特征拼接在一起后送入当前任务的分类层计算交叉熵分类损失,并计算梯度; 步骤7:将当前的分类层权重拆分为视觉权重加速度权重和陀螺仪权重Wtg,并结合分类层的偏置b计算各模态的预测输出之和作为各模态的贡献度; 而后,根据各模态的贡献度,计算各模态的梯度调制系数 其中,m代表模态,表示对应模态的贡献度; 在计算梯度调制系数后,将对应系数乘到对应模态平衡适配器的梯度上,根据梯度使用SGD优化器更新模态平衡适配器和当前任务的分类层参数; 步骤8:使用生成特征集训练模态平衡适配器和当前任务的分类层20个epoch后,将当前识别模型T的分类层替换为使用生成特征集再次训练的当前任务的分类层,实现对当前任务和旧任务的行为类别的增量识别。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人电子科技大学,其通讯地址为:611731 四川省成都市高新区(西区)西源大道2006号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励