南京大学单彩峰获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉南京大学申请的专利一种面向多模态视频的全流程动作识别方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120032424B 。
龙图腾网通过国家知识产权局官网在2025-11-11发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510074667.4,技术领域涉及:G06V40/20;该发明授权一种面向多模态视频的全流程动作识别方法是由单彩峰;吕月明;王淞平;刘庆龙;钱儒凡设计研发完成,并于2025-01-17向国家知识产权局提交的专利申请。
本一种面向多模态视频的全流程动作识别方法在说明书摘要公布了:本发明公开一种面向多模态视频的全流程动作识别方法,首先,通过优化面向多模态数据的增强技术来转换和扩展现有数据,以扩大训练规模。使用更多的RGB数据集对骨干网络进行预训练,并通过迁移学习使其更好地适应新任务。其次,借助2DCNNs提取多模态空间特征,并与时间位移模块结合,实现与3DCNNs相当的多模态空间‑时间特征提取,同时提高计算效率。使用预测增强方法,以整合不同训练阶段的同一架构和不同架构模型的知识,从而从不同角度预测动作并充分利用目标信息。本发明既能克服数据稀缺和过拟合问题,又能提高时空建模能力,并有效融合多模态信息。
本发明授权一种面向多模态视频的全流程动作识别方法在权利要求书中公布了:1.一种面向多模态视频的全流程动作识别方法,其特征在于,所述方法包括:多模态数据预处理阶段、多模态融合阶段、训练阶段和推理阶段;所述多模态数据指不同模块的数据,包括RGB视频数据、红外视频数据和深度视频数据; 所述多模态数据预处理包括如下步骤: 步骤11,动态组时序采;在加载不同模态的数据时,将每个模态的数据均匀分成多个组,从每组中随机选择帧,形成用于训练的多模态视频帧序列; 步骤12,组归一化;对每个模态的数据进行归一化处理; 步骤13,组批次增强处理;将得到的多模态视频帧进行批次增强; 所述多模态融合阶段包括如下步骤: 步骤21,对多模态数据的特征提取;选择两个不同架构和预训练知识的多模态动作识别模型,使用2D卷积神经网络提取多模态空间特征,并与多模态动作识别模型的时间平移模块相结合,以实现多模态时空特征提取;所述多模态动作识别模型选择基于TSM框架的模型作为两种多模态动作识别模型; 步骤22,多模态融合;对步骤21得到的不同模态的特征提取结果进行加权融合; 所述训练阶段包括如下步骤: 步骤31,预训练的迁移学习;利用预训练知识来增强多模态动作识别模型在下游任务的表现; 步骤32,在多模态动作识别模型的训练阶段中,进行超参数配置和梯度裁剪; 所述推理阶段包括如下步骤: 步骤41,推理阶段的预处理;选择一组增强策略来预处理多模态视频数据,包括组缩放和组中心裁剪; 步骤42,测试时增强;对图像水平翻转; 步骤43,随机权重平均;选择多模态动作识别模型在训练过程中不同阶段保存下来的多组权重中表现最好的若干组权重集,并对权重集进行随机权重平均处理,获得了用于后续模型集成的优化后的多模态动作识别模型权重; 步骤44,模型集成;通过整合不同模态的预测结果,来对具有不同架构和预训练知识的多模态动作识别模型进行模型集成; 步骤45,多时间采样;对多模态数据进行重复时间采样,并融合从这些采样中获得的推理结果; 步骤46,全分辨率推理;将分辨率为256×256的多模态视频帧输入到多模态动作识别中。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人南京大学,其通讯地址为:215163 江苏省苏州市太湖大道1520号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励