电子科技大学吴庆波获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉电子科技大学申请的专利一种基于视觉语言知识引入的零样本多模态第一视角行为识别方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119203019B 。
龙图腾网通过国家知识产权局官网在2025-10-17发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411024976.2,技术领域涉及:G06F18/25;该发明授权一种基于视觉语言知识引入的零样本多模态第一视角行为识别方法是由吴庆波;周书畅;王浩杰;李宏亮;孟凡满;许林峰设计研发完成,并于2024-07-29向国家知识产权局提交的专利申请。
本一种基于视觉语言知识引入的零样本多模态第一视角行为识别方法在说明书摘要公布了:该发明公开了一种基于视觉语言知识引入的零样本多模态第一视角行为识别方法,属于多模态行为识别领域。本发明首先将视觉模态输入预训练的CLIP视觉编码器提取视觉特征,将经过STFT变换的加速度计模态、陀螺仪模态频谱图提取对应的特征,文本通过预训练的CLIP文本编码器提取到文本特征。然后将视觉特征传入到适配器模块,将零样本知识与新的自适应特征知识进行动态结合,得到最终的视觉特征。加速度计模态、陀螺仪模态通过惯性传感器融合模块得到最终的惯性传感器特征。最后将文本、视觉、惯性传感器特征一同输入多模态融合模块,充分考虑不同模态间对齐的问题,有效地提升模态融合的效果。该方法在零样本多模态第一视角行为识别任务上表现令人满意。
本发明授权一种基于视觉语言知识引入的零样本多模态第一视角行为识别方法在权利要求书中公布了:1.一种基于视觉语言知识引入的零样本多模态第一视角行为识别方法,该方法包括: 步骤1:使用可穿戴智能眼镜进行数据采集,分别通过眼镜上的第一视角摄像头和传感器来收集同步的视觉数据和传感器数据,构建了多模态第一视角行为数据集; 步骤2:对于视觉数据,截取一段视频,然后将其输入冻结的CLIP视觉编码器,提取到视觉特征Uv;对于文本分支,文本为视频中行为的类别名称,将k个类别的名称放入Ci中,将Ci输入到冻结的CLIP文本编码器,得到文本特征Ft; 步骤3:对于惯性传感器数据,惯性传感器数据由三维时间序列构成,将每个维度的数据通过快速傅里叶变换转化为二维频谱图,然后二维频谱图通过视觉Transformer提取到惯性传感器特征包括加速度计特征Ua,陀螺仪特征Ug; 步骤4:将视觉特征Uv输入到适配器模块,适配器模块的输出与视觉特征Uv拼接后得到最终新旧知识自适应结合后的视觉特征Fv; 步骤5:将加速度计特征Ua,陀螺仪特征Ug输入到惯性传感器融合模块SA·中,得到惯性传感器特征FIS; 步骤6:将文本特征Ft,视觉特征Fv,惯性传感器特征Fi一同输入多模态融合模块中得到输出识别结果; 所述多模态融合模块的具体方法为: 步骤6.1:将带有全局信息的惯性传感器的特征Fi与视觉特征Fv做内积,得到重要性得分S; 步骤6.2:计算视觉特征Fv与文本特征Ft匹配的相似度,得到相似度矩阵Mij; 步骤6.3:将重要性得分S和相似度矩阵Mij做内积,得到视频中每一帧的相似度,然后对所有帧的相似度进行加权求和,根据求和结果来预测当前视频的行为; 将重要性得分S和相似度矩阵Mij做内积,对不同帧输出的相似度进行更新得到Fv′Ft,公式如下: FIS表示整段视频的惯性传感器特征,表示第i帧视觉特征,表示第j帧文本特征,最终加权之后的相似度分数,即预测概率,公式如下: 其中,τ为Softmax的温度,k为类别数,Pj表示类别j的预测概率;选取得分最高的作为预测结果。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人电子科技大学,其通讯地址为:611731 四川省成都市高新区(西区)西源大道2006号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励