杭州电子科技大学薛梦凡获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉杭州电子科技大学申请的专利一种基于多层次交互融合的多模态数据场景识别方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115878983B 。
龙图腾网通过国家知识产权局官网在2025-10-28发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211597492.8,技术领域涉及:G06F18/213;该发明授权一种基于多层次交互融合的多模态数据场景识别方法是由薛梦凡;江浩东;彭冬亮;李焘;韩璐;郑建楠;宋怡然设计研发完成,并于2022-12-12向国家知识产权局提交的专利申请。
本一种基于多层次交互融合的多模态数据场景识别方法在说明书摘要公布了:本发明公开了一种基于多层次交互融合的多模态数据场景识别方法。使用自动驾驶场景下车载传感器收集的视频数据和车载数据,分别提取三种单模态特征,包括基于双阶段注意力机制的多示例学习获取视频中2D级别的特征;通过多层时空注意力网络提取出场景视频中的3D时空特征,同时加入了车载信息特征向量一起训练,进行交互;以及对车载信息特征向量进行训练。完成三个模态的特征提取后,进行相似度损失的计算,在训练过程中最大化三个模态的相似部分,并基于多层自注意力网络对三个模态的特征进行交互,最后进行分类操作。该方法能利用已有的视频和车载信息交互,补充信息,提高识别场景识别速度和精度。
本发明授权一种基于多层次交互融合的多模态数据场景识别方法在权利要求书中公布了:1.一种基于多层次交互融合的多模态数据场景识别方法,其特征在于:具体包括以下步骤: 步骤一、将传感器获取的车载信息通过one-hot编码为特征向量Xinfo∈R5×768,然后建立三个全连接层作为前馈神经网络FN,采用SeLu激活函数,输入车载向量Xinfo,获取车载信息向量ha∈R1×512: ha=FNXinfo0 步骤二、将传感器获取的场景视频数据Xvedio∈RT×C×H×W通过ResNet50网络模型按帧进行特征提取,得到第k帧的特征向量hk∈R1×1024,其中T表示视频帧数量,C表示通道数,H、W分别表示视频帧的长、宽,k∈{1,...,T};将每个特征向量在帧数量的维度方面合并,最终得到该场景视频的特征c∈RT×1024; 步骤三、建立基于双阶段注意力机制的多示例学习模型,其中第一阶段的注意力模型根据门控注意力机制,为每帧的特征向量hk赋予注意力分数αk,第二阶段的注意力模型根据特征向量hk计算查询向量qk和信息向量vk,然后选取注意力分数αk最高的两个特征向量htop1、htop2作为关键帧特征,计算查询向量qk与两张关键帧特征htop1、htop2之间距离,作为第二阶段的注意力得分Scorek: 其中,表示内积,qmi表示两张关键帧对应的查询向量,qt表示每一帧特征的查询向量;根据注意力得分Scorek对信息向量vk进行加权和与降维操作,得到场景视频的2D级别特征向量hb∈R1×512: 其中L1表示全连接层操作; 步骤四、将场景视频数据Xvedio在帧维度堆叠成3D图像块,然后分割成4个同等大小的3D图像块Xblock∈RT×C×12H×12W,通过卷积层映射为图像块向量Xp∈R1×768,并根据已知信息,建立相同维度的类别标记向量Xclass与其合并,在与车载信息向量融合,得到嵌入层向量X0∈R4+1×768; 步骤五、使用自注意力模块SA将嵌入层向量X0转化为查询矩阵Q、关键字矩阵K和值矩阵V,并计算计算三个矩阵之间的注意力输出矩阵: 其中,dkey表示关键字矩阵K中每个关键字向量key的维度; 使用多头注意力模块MSA将嵌入层向量X0沿着第二个维度输入划分为P个部分,分别计算每个部分的注意力函数后合并输出: MSAQ,K,V=Concatheadd1,...,headdpWO6 其中WO是可训练的参数矩阵,Concat表示堆叠操作;在多头注意力模块MSA的基础上使用多层感知机MLP,输出融合了车载信息向量的时空特征hspatial; 步骤六、将融合了车载信息向量的时空特征hspatial输入到全连接层,降维后得到3D级别时空信息和车载信息的特征向量hc∈R1×512; 步骤七、将从步骤一中获取的车载信息向量ha、步骤三获取的场景视频的2D级别特征向量hb和步骤六获取的具有3D级别时空信息和车载信息的特征向量hc通过权重矩阵计算,得到对应的查询向量qnew和键向量knew: 计算三个特征向量之间的相似度损失Loss1: 步骤八、搭建6层8头的自注意力特征交互网络,输入特征向量ha、hb和hc,得到多模态融合后的特征向量hfinal,通过Softmax函数得到分类预测结果prob=R1×class: 其中,W*∈RM×512表示分类层权重,class表示类别总数; 步骤九、将步骤八得到的预测结果prob与数据样本的标签y∈{0,1,...,N}进行计算,得到损失Loss2: Loss2=-ylogprob-1-ylog1-prob12 然后利用总体损失Loss=Loss1+Loss2对网络进行反向传播训练; 步骤十、向步骤九训练后的分类模型,输入待分类的自动驾驶场景车载信息和视频数据,在输出端得到对应的类别标签,完成分类任务。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人杭州电子科技大学,其通讯地址为:310018 浙江省杭州市下沙高教园区2号大街;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励