武汉大学叶茫获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉武汉大学申请的专利基于跨模态金字塔对齐的视觉意图分析方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116434255B 。
龙图腾网通过国家知识产权局官网在2025-12-23发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310277551.1,技术领域涉及:G06V30/41;该发明授权基于跨模态金字塔对齐的视觉意图分析方法及系统是由叶茫;施清鸿雅;王若瑜设计研发完成,并于2023-03-17向国家知识产权局提交的专利申请。
本基于跨模态金字塔对齐的视觉意图分析方法及系统在说明书摘要公布了:本发明公开了一种基于跨模态金字塔对齐的视觉意图分析方法及系统,针对简单地在图像内容中建模对象或背景会导致意图理解歧异的问题,本发明提出了一种层级关系挖掘方法,利用视觉内容和文本意图标签之间的层级关系,通过分层建模提高视觉意图的全局理解。对于视觉层级结构,我们将视觉意图理解转化为层级分类问题,在不同层中捕获多粒度特征,这些特征对应于层级意图标签。对于文本层级结构,我们直接从不同层级的意图标签中提取语义表示,补充了视觉内容建模,且无需额外的手工标注。同时,我们设计了一种跨模态金字塔对齐模块,进一步缩小两种模态之间的域差距,以联合学习的方式动态优化视觉意图理解性能。
本发明授权基于跨模态金字塔对齐的视觉意图分析方法及系统在权利要求书中公布了:1.一种基于跨模态金字塔对齐的视觉意图分析方法,其特征在于,包括以下步骤: 步骤1:构建层级关系挖掘网络、跨模态金字塔对齐网络和BERT模型; 所述层级关系挖掘网络,用于挖掘视觉层级信息;包括残差网络、下采样层、池化层和通道注意力模块; 所述残差网络,包括顺序连接的卷积层、最大池化层、第一模块、第二模块、第三模块和第四模块;所述卷积层和最大池化层的卷积核大小均为7,步长均为2;所述第一模块包含3个block,block由三层卷积组成,卷积核分别是1×1、3×3、1×1,步长均为1;第二模块包含4个block,block由三层卷积组成,卷积核分别是1×1、3×3、1×1,步长均为2;第三模块包含6个block,block由三层卷积组成,卷积核分别是1×1、3×3、1×1,步长均为2;第四模块包含3个block,block由三层卷积组成,卷积核分别是1×1、3×3、1×1,步长均为2;所述第一模块、第二模块、第三模块和第四模块的每一个卷积结束之后设置有一个批归一化层和激活层;每一个block之间通过残差连接; 所述下采样层,包括一个卷积核3×3,步长为2的卷积层以及一个批归一化层; 所述第一模块的输出经过下采样层后与所述第二模块的输出相连,然后经过下采样层后与所述第三模块的输出相连,然后经过下采样层后与所述第四模块的输出相连后输入所述通道注意力模块; 所述通道注意力模块,是卷积核1×1,步长为1的卷积层; 所述BERT模型,用于提取粗粒度、中粒度和细粒度的文本特征; 所述跨模态金字塔对齐网络,用于将层级关系挖掘网络提取得到的视觉层级信息和BERT模型提取的文本层级特征在每一个层级上进行对齐;包括一个PIENet和对应各个层级的全连接层;所述PIENet是由多头注意力模块和残差连接组成,所述多头注意力模块由全连接层、激活层、全连接层、softmax层组成; 步骤2:将待处理视觉图片输入所述层级关系挖掘网络,提取图片的不同层级的视觉信息,并将从不同层提取的特征聚合成聚合特征;第一模块出来的特征经过下采样层与第二模块出来的特征相连得到粗粒度的聚合特征;第二模块出来的特征经过下采样层与第三模块出来的特征相连得到中粒度聚合特征;第三模块出来的特征经过下采样层与第四模块出来的特征相连得到细粒度聚合特征;粗粒度和中粒度的特征经过池化层和线性层得到对应的分类损失,细粒度特征再经过一个通道注意力模块、池化层和线性层得到对应的细粒度分类损失; 步骤3:从不同层级的意图标签中提取出不同层级的文本语义信息; 步骤4:将得到的三个不同层级的视觉聚合特征与提取到的不同层级的文本语义信息放入所述跨模态金字塔对齐网络中; 步骤5:利用度量学习,在同一层级上建立文本特征fth和视觉特征之间的内部联系,并采用层归一化得到增强的文本特征和视觉特征通过度量学习衡量增强后的文本和视觉特征之间的语义关系,得到对应的模态损失来辅助最终的意图判断。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人武汉大学,其通讯地址为:430072 湖北省武汉市武昌区八一路299号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励