大连理工大学陈炳才获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉大连理工大学申请的专利一种基于多粒度视觉转换器的行人重识别方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116824621B 。
龙图腾网通过国家知识产权局官网在2026-04-14发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310032751.0,技术领域涉及:G06V40/10;该发明授权一种基于多粒度视觉转换器的行人重识别方法是由陈炳才;张繁盛;聂冰洋设计研发完成,并于2023-01-10向国家知识产权局提交的专利申请。
本一种基于多粒度视觉转换器的行人重识别方法在说明书摘要公布了:本发明属于计算机视觉技术领域,提出一种基于多粒度视觉转换器的行人重识别方法。本发明中为视觉转换器增加了三个特征提取阶段:打散、分割和拼接、提纯和加强,使网络学习到的特征一步步从粗糙到精细。在第三阶段的加强阶段,加入了特征加强块,将分支提取后的特征做进一步的加强。此外,在不同分支使用不同损失函数,进一步提高网络性能。本发明有效增强了视觉转换器的多粒度提取能力,在行人重识别领域取得了显著的效果。
本发明授权一种基于多粒度视觉转换器的行人重识别方法在权利要求书中公布了:1.一种基于多粒度视觉转换器的行人重识别方法,其特征在于,包括以下步骤: 步骤一,数据预处理; 设定行人的身份ID数为N,每个身份ID的行人包含Fi张图像,其中Fi1;在训练模型时,以行人图像作为输入,身份ID信息作为标签;将训练集图像中X1%的图像作为训练图像,X2%的图像作为验证图像;模型为基于现有VisionTransformer添加多粒度特征提取的网络模型; 1.1将图像放缩到H,W,C作为模型的输入,H表示图像的长,W表示图像的宽,C表示图像的通道数; 1.2使用随机水平翻转和随机擦除算法进行数据增强; 设定阈值概率P,产生一个0-1的随机数P1,当P1P时则不对输入的图像处理,否则对输入的图像进行水平翻转和随机擦除: 1; 在随机擦除时,擦除部分占总体图像的比例设为[e1-e2],并且擦除部分长宽比设为Re; 步骤二,将图像格式处理后输入到模型中; 2.1块嵌入; 从图像左上角开始,将输入图像划分为不重合的图像块集合,每个图像块的尺寸为Hblock×Wblock,图像被划分成若干个大小为Hblock,Wblock,3的图像块,图像块的数量Nblock为: 2; 将图像块由二维展平成一维,并拼接成一个一维向量Vinput; 2.2增加分类标识; 在步骤2.1中得到的一维向量Vinput的基础上,在一维向量Vinput最前端拼接分类标识token,得到最终的输入向量V: 3; 2.3将输入向量V输入到预训练后的VisionTransformer; 将步骤2.2中得到的输入向量V输入到VisionTransformer中,其中VisionTransformer使用ImageNet公开数据集预训练,VisionTransformer主干网络包含12层的Transformer块; 2.4特征拆分 将步骤2.3处理后的向量拆分,再次分成分类标识token′和一维向量Vinput′;分类标识token′用于提取全局特征;一维向量Vinput′则进入步骤三,进行多粒度特征提取; 步骤三,多粒度特征提取阶段; 在VisionTransformer的后端增加了三个特征提取阶段,分别为打散阶段、分割和拼接阶段、提纯和加强阶段,具体如下: 3.1第一阶段为打散; 随机打乱一维向量Vinput′中图像块的顺序,使图像块打散混合,过程如下: 4; 3.2第二阶段为分割和拼接; 3.2.1分割 将打散混合后的一维向量Vinput′从上到下拆分成4等份,设定打散混合后的一维向量Vinput′的长度为L,则V、V、V和V为: 5; 6; 7; 8; 3.2.2拼接 将步骤2.4中拆分得到的分类标识token′,分别拼接至V、V、V和V的最前端,表达式如下: 9; 10; 11; 12; 3.3第三阶段为提纯和加强; 3.3.1提纯 将分割与拼接后的特征向量V1、V2、V3和V4输入到Transformer块中,做进一步的特征提纯;Transformer块的结构包括一个多头自注意力模块和一个多层感知器,在二者之前均进行层标准化处理,二者之后均增加残差连接; 3.3.2加强 将提纯后的特征向量V1、V2、V3和V4输入到特征加强块中,进行特征加强;特征加强块共包括膨胀、收缩和过滤三个步骤; 3.3.2.1膨胀 使用扩维的全连接层将提纯后的特征向量V1、V2、V3和V4分别映射到原长度2倍的数组空间上; 3.3.2.2收缩 使用缩维的全连接层将膨胀后的特征向量V1、V2、V3和V4分别再次变换到原长空间中; 3.3.2.3过滤 使用ReLU层,将变换得到的负数信息舍弃掉,正数信息保持不变,ReLU的数学表达式如下: 13; 其中,x表示特征向量V1、V2、V3和V4中的特征值; 步骤四,计算损失,反向传播更新网络参数; 4.1特征映射;提纯和加强后的特征向量经过全连接层,将其特征映射到N中,其中N为步骤一中所设数据集中行人的种类;特征包括全局特征和局部特征; 4.1.1全局特征; 将步骤2.4中拆分出的分类标识token′经全连接层处理,得到全局特征块Fg; 4.1.2分支特征; 将步骤三处理后的特征向量V1、V2、V3和V4中的分类标识token′取出,分别经过全连接层,得到分支特征块Fb1、Fb2、Fb3和Fb4; 4.2在不同分支使用不同损失函数,计算损失值; 4.2.1总损失函数包括全局损失和分支损失,公式如下: 14; 其中,w1和w2分别代表全局损失和分支损失的权重;Lsum表示总的损失函数,Lglobal表示全局损失,Lbranch表示分支损失; 4.2.2全局损失中增加ID损失、Triplet损失和Circle损失,公式如下: 15; 其中,Fg为步骤4.1.1处理得到的全局特征块;fid表示ID损失;ftriplet表示Triplet损失;fcircle表示Circle损失; 4.2.3分支损失中增加ID损失和Triplet损失,公式如下: 16; 其中,Fbi为步骤4.1.2处理得到的分支特征块,包括Fb1、Fb2、Fb3、Fb4四个特征块; 4.3设置超参数,训练网络;采用预热学习率,将学习率初始为r,在前10次训练中逐渐递增为十倍的r;优化器采用优化随机梯度下降算法,增加值为d1的权重衰减和值为d2的偏移量;通过设置好的优化器和学习率,结合步骤4.1~步骤4.2中计算出的损失值,进行反向传播,更新网络参数; 步骤五,进行行人重识别匹配; 将待检测的行人图像放缩后输入添加多粒度特征提取的VisionTransformer模型中,输出结果使用softmax处理,得到N个概率值,分别对应该行人属于不同类的概率,其中概率值最大的类即为该行人的身份。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人大连理工大学,其通讯地址为:116024 辽宁省大连市甘井子区凌工路2号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励