徐工消防安全装备有限公司;燕山大学王国宝获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉徐工消防安全装备有限公司;燕山大学申请的专利一种多模态目标检测方法、装置、终端及储存介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120318503B 。
龙图腾网通过国家知识产权局官网在2025-09-02发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510807532.4,技术领域涉及:G06V10/25;该发明授权一种多模态目标检测方法、装置、终端及储存介质是由王国宝;肖宏;高志刚设计研发完成,并于2025-06-17向国家知识产权局提交的专利申请。
本一种多模态目标检测方法、装置、终端及储存介质在说明书摘要公布了:本发明公开了目标检测技术领域的一种多模态目标检测方法、装置、终端及储存介质,旨在解决现有技术通常存在依赖标注数据、视觉骨干多样性不足的问题,且训练成本较高的问题。其包括以下步骤:获取目标图像;将目标图像输入至预训练好的多模态目标检测模型,输出定位及分类预测结果,完成检测;本发明首次在目标检测任务中引入UNet网络作为视觉骨干网络,突破了传统有监督和无监督方法的局限性,为目标检测任务提供了全新的特征表示方式;本发明利用多模态目标检测模型的自监督学习能力,减少了对大量标注数据的依赖,降低了训练成本,同时提升了模型在数据稀缺场景下的适用性。
本发明授权一种多模态目标检测方法、装置、终端及储存介质在权利要求书中公布了:1.一种多模态目标检测方法,其特征在于,包括以下步骤: 获取目标图像; 将目标图像输入至预训练好的多模态目标检测模型,输出定位及分类预测结果,完成检测;所述多模态目标检测模型包括CLIP编码器、VAE编码器、UNet网络和检测头; 其中,所述多模态目标检测模型对目标图像的检测过程具体包括: 将目标图像输入到CLIP编码器中,生成文本提示嵌入; 将目标图像输入到VAE编码器中,生成潜在特征图; 将潜在特征图和文本提示嵌入输入至UNet网络,获取多尺度扩散特征图; 计算文本提示嵌入与潜在特征图在UNet网络中的交叉注意力计算结果图; 根据交叉注意力计算结果图与多尺度扩散特征图进行通道维度拼接形成增强后的特征图; 将增强后的特征图输入到检测头中,输出定位和分类预测结果; 所述将目标图像输入到CLIP编码器中,生成文本提示嵌入,具体包括: 将目标图像输入到CLIP编码器中,获取对应的图像特征; 将对应的图像特征通过两层线性层,得到映射后的文本提示嵌入; 所述根据交叉注意力计算结果图与多尺度扩散特征图进行通道维度拼接形成增强后的特征图,具体包括: 将交叉注意力计算结果图的二、三层与多尺度扩散特征图的三、四层沿通道维度拼接,形成增强后的特征图; 所述将增强后的特征图输入到检测头中,输出定位和分类预测结果,具体包括: 将增强后的特征图输入到检测头的FPN模块中,进行多尺度特征融合,获取融合后的特征图; 将融合后的特征图输入到检测头的分类模块和定位模块中,输出定位和分类预测结果。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人徐工消防安全装备有限公司;燕山大学,其通讯地址为:221100 江苏省徐州市高新技术产业开发区珠江东路17号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。