四川大学何小海获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉四川大学申请的专利一种基于BERT的文本到图像跨模态行人重识别方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116343256B 。
龙图腾网通过国家知识产权局官网在2025-08-19发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202111509721.1,技术领域涉及:G06V40/10;该发明授权一种基于BERT的文本到图像跨模态行人重识别方法是由何小海;刘强;滕奇志;陈洪刚;卿粼波;吴晓红设计研发完成,并于2021-12-10向国家知识产权局提交的专利申请。
本一种基于BERT的文本到图像跨模态行人重识别方法在说明书摘要公布了:本发明公开了一种基于BERT的文本到图像跨模态行人重识别方法。包括以下步骤:首先使用SR‑ResNet50提取图像特征;使用BERT和ResNet10级联方式来提取文本特征。其次,为让模型关注文本中的重要词语和图像中的显著性区域,在图像分支、文本分支和CRG网络分支上都添加了RCBAM模块。为消除文本与图像模态差异,将文本和图像特征拼接输入CRG网络学习模态不变特征表示。最后,将跨模态投影匹配损失,跨模态投影分类损失和跨模态采样三元组损失联合来训练优化模型,最终,提高了跨模态行人重识别精度。本发明主要应用于视频监控智能分析应用系统中,在文本到图像检索,重识别智能安防等领域具有开阔的应用前景。
本发明授权一种基于BERT的文本到图像跨模态行人重识别方法在权利要求书中公布了:1.一种基于BERT的文本到图像跨模态行人重识别方法,其特征在于以下步骤: 1首先将大小为384×128行人图像输入SR-ResNet50网络得到图像特征fV,该网络在ResNet50的stage1~4后分别添加了一个RCBAM模块;将文本输入BERT网络,得到特征ft,然后将ft输入ResNet10网络,得到文本特征fT;最后将特征fV和fT分别输入到VG模块,得到特征和 2为了消除文本和图像模态差异,分别使用全局最大池化对图像特征fV和文本特征fT进行处理,得到特征和然后使用“Concatenate”操作对特征和进行拼接,得到融合特征fV+T,最后将fV+T送入CRG模块,得到特征f′V+T;通过CRG共享网络来学习两种模态不变的特征表示; 3为了增强文本中的关键属性短语与图像局部的联系,让模型学习关注文本描述中的重要属性词语和图像中的显著性区域,在图像分支、文本分支和共享CRG网络上都使用了RCBAM注意模块; 4使用跨模态投影匹配损失,跨模态投影分类损失和跨模态难采样三元组损失来联合训练优化网络模型,最终有效提高文本到图像跨模态行人重识别的精度; RCBAM模块由通道注意模块CAM和空间注意模块SAM两个组成;在RCBAM模块中,输入特征首先进行“通道注意”操作,然后进行“空间注意”操作,最后将输出特征与输入特征相加后输出;相加操作在不增加额外参数和计算量的基础上,加快模块的训练速度,提升模型的训练效果; fc=ψcf1 fs=ψcf′2 其中表示逐个元素的加法,示逐个元素的乘积,ψc表示通道注意操作,ψs表示空间注意操作;在加法过程中,相应的传播注意值:通道注意值沿着空间维度传播,反之亦然;f″是最终的精炼输出; 在图像分支网络上加入RCBAM注意模块,可以引导网络更好地关注图像中的目标对象;在文本分支上加入RCBAM注意模块,可以使网络更好地关注文本中的关键属性词语;同时,我们在共享CRG网络部分也增加了RCBAM模块,可以让网络更好地学习关注模态不变的特征表示; 我们利用特征间的通道关系来提获取道注意图,为有效地计算通道注意力,我们对输入特征图的空间维度进行压缩;对于空间信息的聚集,目前普遍采用全局平均池化方法;由于最大池化可以收集特征中响应最大、最强烈的部分,即我们期望获取显著的特征,从而可以得到更好的通道注意;因此,我们同时使用全局平均池和全局最大池特性; 首先,我们使用全局平均池化和全局最大池化操作聚合特征图的空间信息,生成两种不同的空间上下文描述符;和分别表示平均池化特征和最大池化特征;然后,这两个描述符被输入到一个共享网络MLP中,在中生成我们的通道注意力特征ψc;该共享网络由多层感知器MLP和一个隐含层组成;为了减少参数开销,隐藏的激活大小被设置为其中R是缩减比;在将共享网络应用到每个描述符之后,我们使用元素求和操作来合并输出特征向量;简而言之,通道注意被计算为: 其中σ表示sigmoid函数,在和在请注意MLP权重W0和W1对两个输入都是共享的,而ReLU激活函数后面跟着W0; 输入特征在通道层面上使用平均池化和最大池化操作得到两个2D特征图:和然后用标准的卷积层将它们连接和卷积,生成我们的二维空间注意力图;简而言之,空间注意的计算为: 其中σ表示sigmoid函数,f3×3表示滤波器大小为3×3的卷积操作。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人四川大学,其通讯地址为:610065 四川省成都市武侯区一环路南一段24号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。