深圳大学张洋获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉深圳大学申请的专利一种基于多模态的弱监督目标定位方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN117274690B 。
龙图腾网通过国家知识产权局官网在2025-12-19发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202311220936.0,技术领域涉及:G06V10/764;该发明授权一种基于多模态的弱监督目标定位方法是由张洋;何伟钊设计研发完成,并于2023-09-20向国家知识产权局提交的专利申请。
本一种基于多模态的弱监督目标定位方法在说明书摘要公布了:本发明公开了一种基于多模态的弱监督目标定位方法,包括如下步骤:获取图像数据集并划分为训练数据集和测试数据集,所述训练数据集由图像和分类标签组成;调整图像数据集中图像数据的宽和高,并对图像做归一化处理;图像数据对应的分类标签通过模板生成类别相关的文本数据;构建Conformer分类网络;构建CLIPTextEncoder文本编码器和Liner线性层;将图像的分类标签转换为文本数据,借助CLIP强大的图文匹配能力,在训练过程中加入的图文匹配目标,为网络模型的训练引入了额外的监督信息,以此缓解类别激活映射存在的问题。此外,本发明采用Conformer作为训练的分类网络,并利用网络模型本身的副产物注意力矩阵对类别激活映射进行细化,进一步提升网络模型的定位表现。
本发明授权一种基于多模态的弱监督目标定位方法在权利要求书中公布了:1.一种基于多模态的弱监督目标定位方法,其特征在于,包括如下步骤: S1、获取图像数据集并划分为训练数据集和测试数据集;所述训练数据集由图像和分类标签组成; S2、调整图像数据集中图像的宽和高,并对图像做标准化处理;图像数据对应的分类标签通过模板生成类别相关的文本数据; S3、构建Conformer分类网络;所述Conformer分类网络是CNN-Transformer双分支结构,一共有L层; S4、构建CLIPTextEncoder文本编码器和Liner线性层; S5、图像数据通过Conformer分类网络得到图像表征I; S6、文本数据经过CLIPTextEncoder文本编码器和Linear线性层得到文本表征T; S7、图像表征I与对应的分类标签y计算交叉熵损失; S8、图像表征I与文本表征T分别经过L2Norm后计算对比损失 S9、用Adam更新网络模型参数; S10、重复步骤S5~S9直到收敛; S11、在推理过程中,测试图像经过Conformer分类网络后得到类别激活映射CAM、积累的L层注意力矩阵和分类结果,融合L层的注意力矩阵并从中提取出注意力图和亲和力图,为了对CAM做进一步的优化,CAM先与亲和力图进行矩阵乘法运算,接着其输出与注意力图进行哈达玛积运算得到最终的优化后的CAM,最后,设定阈值,将CAM中值大于阈值的置为255,小于阈值的置为0,以生成二值图,根据二值图获取最大的像素连通区域,以形成最终目标的定位框。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人深圳大学,其通讯地址为:518000 广东省深圳市南山区粤海街道南海大道3688号深圳大学致腾楼933;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励