西安电子科技大学周绥平获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉西安电子科技大学申请的专利一种基于交叉模态融合与引导注意力机制的目标检测方法、系统、设备及介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119648999B 。
龙图腾网通过国家知识产权局官网在2025-10-24发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411726031.5,技术领域涉及:G06V10/25;该发明授权一种基于交叉模态融合与引导注意力机制的目标检测方法、系统、设备及介质是由周绥平;高继琛;郭峰;李晨阳;师佳琦设计研发完成,并于2024-11-28向国家知识产权局提交的专利申请。
本一种基于交叉模态融合与引导注意力机制的目标检测方法、系统、设备及介质在说明书摘要公布了:一种基于交叉模态融合与引导注意力机制的目标检测方法、系统、设备及介质,目标检测方法包括:获取可见光‑红外图像配对数据集,对其进行数据处理并划分,得到训练集、验证集和测试集;构建多模态目标检测网络;设置网络训练参数;利用训练集对多模态目标检测网络进行训练和优化,训练结束后输出训练权重文件,并利用验证集对训练完成的权重文件进行验证,选取精度最高的权重文件作为最优权重文件;将测试集和最优权重文件载入到多模态目标检测网络中,对测试集进行目标检测,得到目标检测结果;系统、设备及介质用于承载和实现所述方法;本发明具有更低的误检和错检情况,提高了目标检测的鲁棒性和准确性。
本发明授权一种基于交叉模态融合与引导注意力机制的目标检测方法、系统、设备及介质在权利要求书中公布了:1.一种基于交叉模态融合与引导注意力机制的目标检测方法,其特征在于,包括以下步骤: 步骤一:获取可见光-红外图像配对数据集,对可见光-红外图像配对数据集进行数据处理并划分,得到训练集、验证集和测试集; 步骤二:构建多模态目标检测网络,包括输入网络Input、主干网络Backbone、颈部网络Neck和检测头Head,其中,主干网络Backbone包括双分支CSPDarket53网络、四个跨模态特征增强模块CFM、四个双模态交叉引导注意力模块DMCT,颈部网络Neck包括特征增强模块FEM; 所述步骤二的实现方法包括: 步骤201:将步骤103生成的训练集作为多模态目标检测网络输入; 步骤202:构建多模态目标检测网络,包括输入网络Input、主干网络Backbone、颈部网络Neck和检测头Head; 所述输入网络Input,使用Mosaic算法对步骤201输入的训练集进行数据增强处理,得到增强训练集;使用聚类算法对增强训练集锚框进行锚框优化,得到最优锚框尺寸; 所述主干网络Backbone用于红外模态和可见光模态特征的提取、交互与融合,主干网络Backbone包括双分支CSPDarket53网络、四个跨模态特征增强模块CFM和四个双模态交叉引导注意力模块DMCT,经过双分支CSPDarket53网络获得通道数为64、128、256、512和1024的红外模态和可见光模态语义特征图,将64、128、256、512通道数对应的红外模态和可见光模态特征分别输入至四个跨模态特征增强模块CFM,在空间和通道交叉增强红外模态和可见光模态特征,将交叉增强后的红外模态和可见光模态特征输入至四个双模态交叉引导注意力模块DMCT,实现红外模态和可见光模态特征的长距离特征交互,其中,将经过双模态交叉引导注意力模块DMCT处理后的特征与双分支CSPDarket53网络提取的特征进行相加,获得不同通道数的融合特征; 所述颈部网络Neck,通过上采样、特征增强模块FEM和全连接层Concat将主干网络Backbone得到的不同通道数的融合特征进行融合,获得融合后的高级语义特征图; 所述检测头Head用于对经过颈部网络Neck融合后的高级语义特征图进行多尺度目标检测,包括锚框、卷积层、预测层和非极大值抑制,输出预测结果; 所述步骤202中的构建主干网络Backbone具体包括: 步骤2021:构建双分支CSPDarket53网络; 双分支CSPDarket53网络用于提取红外模态和可见光模态的多尺度特征信息,其中,双分支CSPDarket53网络包括四个CBS模块和四个C3模块,CBS模块和C3模块均由卷积层Conv、激活函数和批量归一化操作构成,其采样通道数为64、128、256、512和1024;在主干网络Backbone中进行一系列的卷积操作,提取通道数为64、128、256、512和1024的红外模态和可见光模态语义特征图; 步骤2022:构建跨模态特征增强模块CFM; 将若干个1×1的卷积,若干个不同的激活函数Sigmoid、Softmax,层归一化LayerNorm,若干个全局池化GlobalPooling进行串并联连接,在空间和通道层面通过交叉调制增强双模态特征;将由步骤2021提取通道数为64、128、256、和512的红外模态和可见光模态语义特征图输入至跨模态特征增强模块CFM中,跨模态特征增强模块CFM利用辅助模态增强另一个模态的特征表示,跨模态特征增强模块CFM的表达式为: 其中FiR,FiR为第ii=1,2,3,4个阶段的输入特征,Wq-,Wv-表示1×1的卷积,σ1,σ2,σ3表示变化张量操作,FSG,FSM,FGP分别表示激活函数Sigmod、激活函数SoftMax、全局池化GlobalPooling操作,表示张量逐元素点乘; 将构建的跨模态特征增强模块CFM添加到步骤2021中的双分支CSPDarket53网络的每个C3模块的后面; 步骤2023:构建双模态交叉引导注意力模块DMCT; 双模态交叉引导注意力模块DMCT由交叉引导注意力机制和自注意力机制Self-attentionLayerMechanisms组成,将由步骤2022构建的跨模态特征增强模块CFM处理后的特征图输入到双模态交叉引导注意力模块DMCT中,通过红外模态和可见光模态特征相乘组成共享模态,将共享模态作为引导的基础模态,引导红外模态和可见光模态,实现两个模态的深度的信息交互;表示为下式: 其中,自注意力机制Self-attentionLayerMechanisms表示为: Q=FWq,K=FWk,V=FWv 交叉引导注意力机制Guided-attentionLayerMechanisms表示为: 其中,Q,K,V分别表示查询向量、键向量和值向量,F表示红外图像特征图和可见光图像特征图,Wq,Wk,Wv表示可训练的权重矩阵,B表示偏差矩阵; 将构建的双模态交叉引导注意力模块DMCT连接到步骤2022构建的跨模态特征增强模块CFM后面,将双模态交叉引导注意力模块DMCT处理后的特征与双分支CSPDarket53网络提取的特征进行相加,获得不同通道数的融合特征; 所述步骤202中的特征增强模块FEM具体包括:通道注意力Channelattention、空间注意力SpatialAttention、四个卷积分支;将经过双模态交叉引导注意力模块DMCT处理后的特征与双分支CSPDarket53网络提取的特征进行相加,获得不同通道数的融合特征,将通道数为256、512和1024的红外模态和可见光模态融合特征输入到颈部网络Neck的特征增强模块FEM中,融合特征通过通道注意力Channelattention、空间注意力SpatialAttention在通道和空间增强特征,将增强后的特征输入到四个卷积分支中,并将卷积的输出特征图进行特征相加操作,获得增强后的融合特征,通过颈部网络Neck中的上采样、全连接层Concat、常规卷积将每个阶段输出的增强后的融合特征进行融合,获取融合特征的高级语义特征图; 所述四个卷积分支包括:两个常规卷积串联分支、三个常规卷积和一个空洞卷积串联分支、三个常规卷积和一个空洞卷积分支、一个常规卷积分支; 步骤三:设置网络训练参数; 步骤四:根据步骤三设置的网络训练参数,利用步骤一获得的训练集对步骤二构建的多模态目标检测网络进行训练和优化,训练结束后输出训练权重文件,并利用步骤一得到的验证集对训练完成的权重文件进行验证,选取精度最高的权重文件作为最优权重文件; 步骤五:将步骤一得到的测试集和步骤四选取的最优权重文件载入到步骤二构建的多模态目标检测网络中,对测试集进行目标检测,得到目标检测结果。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人西安电子科技大学,其通讯地址为:710071 陕西省西安市雁塔区太白南路2号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励