大连理工大学连静获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉大连理工大学申请的专利一种轻量化的汽车尾灯灯语实时识别方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116129400B 。
龙图腾网通过国家知识产权局官网在2025-11-18发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310082665.0,技术领域涉及:G06V20/58;该发明授权一种轻量化的汽车尾灯灯语实时识别方法是由连静;顾汤鹏;李琳辉;赵剑设计研发完成,并于2023-02-08向国家知识产权局提交的专利申请。
本一种轻量化的汽车尾灯灯语实时识别方法在说明书摘要公布了:本发明公开了一种轻量化的汽车尾灯灯语实时识别方法,包括以下步骤:设计MCA‑YOLOv5s网络获取车辆尾部检测框的信息和置信度;通过Bytetrack模块获得车辆尾部图像的跟踪序列;设计基于分块注意力和混洗注意力的三维时空卷积神经网络即TSA‑X3d网络的识别尾灯灯语。本发明设计MCA‑YOLOv5s网络对交通场景里的车辆尾部进行检测,利用Bytetrack网络得到车辆尾部的跟踪序列,最后设计TSA‑X3d网络对跟踪序列进行时空特征的提取从而获得尾灯灯语。本发明整体模型较小,对硬件要求较低,在离线对系统模型训练后,方便部署在资源有限的设备上,大大提高了行车的安全性,实现了灯语识别的准确高效。
本发明授权一种轻量化的汽车尾灯灯语实时识别方法在权利要求书中公布了:1.一种轻量化的汽车尾灯灯语实时识别方法,其特征在于:包括以下步骤: A、设计MCA-YOLOv5s网络获取车辆尾部检测框的信息和置信度 A1、对交通场景里的车辆尾部进行标记:通过公开数据集或行车记录仪获取车辆尾部检测数据集,对交通场景里的车辆尾部以YOLO格式进行标记,在YOLO格式下,每张图片对应一个文本文件,所述文本文件的每一行对应一个车辆尾部的信息,每行包括5个数字,第一个数字代表目标类别,第二个数字代表车辆尾部图像中心横坐标与图像宽度比值,第三个数字代表车辆尾部图像中心纵坐标与图像高度比值,第四个数字代表车辆尾部矩形框的宽度与图像宽度比值,第五个数字代表车辆尾部矩形框的高度与图像高度比值,相邻数字以空格分开; A2、建立MCA-YOLOv5s网络:对YOLOv5s网络进行改进,所述YOLOv5s网络是一种单阶段的目标检测网络,包括主干网络、瓶颈网络和预测网络,所述主干网络由特征提取网络和空间金字塔池化结构组成、瓶颈网络由特征金字塔网络和C3结构组成、预测网络由普通卷积层组成;其中,C3结构由3个卷积层组成;将YOLOv5s网络里的主干网络替换为11个cneck模块,最后将所有C3结构替换为深度可分离卷积并最终得到MCA-YOLOv5s网络;所述MCA-YOLOv5s网络为基于坐标注意力和倒残差结构的YOLOv5s网络;所述cneck模块为倒残差结构模块; A3、将车辆尾部检测数据集进行训练:将车辆尾部检测数据集按照a:b的比例分为训练集和验证集输入到MCA-YOLOv5s网络中进行训练;所述训练集用于对MCA-YOLOv5s网络进行训练,所述验证集用于对训练结果进行反馈,将在验证集上表现最好的权重文件保存下来用于获取车辆尾部检测框信息和置信度; A4、使用深度可分离卷积结构降低网络参数量:将步骤A2中的深度可分离卷积分为逐通道卷积和逐点卷积;在逐通道卷积中,MCA-YOLOv5s网络中经过拼接后的特征图的一个通道只与一个卷积核进行卷积操作从而得到新的特征图;逐点卷积将逐通道卷积得到的新的特征图在深度方向上进行加权组合生成最终的特征图; A5、使用cneck模块结构降低网络参数量:将步骤A2中的cneck模块首先通过1×1的卷积对输入的特征图进行升维,然后使用3×3的卷积对升维后的特征图进行逐通道深度卷积操作,利用坐标注意力模块获取输入特征图的通道信息和位置信息,再经过1×1卷积对特征图进行降维,最后进行残差跳跃连接以缓解随着网络不断加深出现的梯度弥散现象; A6、使用坐标注意力模块结构增强网络特征提取能力:将步骤A5中的坐标注意力模块分别在X方向和Y方向进行全局平均池化,保留两个方向通道注意力的长距离依赖关系,然后将两个方向的信息进行拼接并进行卷积操作,使两个方向的信息进行交互;在此基础上将特征图拆开分别进行卷积操作,同时关注特征图的X方向和Y方向的信息从而获取特征图的位置信息,相关公式如下: f=δF1[zh,zw] gh=σFhfh gw=σFwfw 式中,zc为全局平均池化,和分别为高度为h和宽度为w的第c通道的输出,f为经过卷积变换后的特征,gh为特征图沿X方向经过卷积变换后的特征,gw为特征图沿Y方向经过卷积变换后的特征,yci,j为输入特征图第c通道第i行j列的值经过坐标注意力模块的输出,H、W分别为特征图的宽和高,σ和δ为激活函数,xci,j为输入特征图第c通道第i行j列的值,xch,i为输入特征图第c通道第h行i列的值,xcj,w为输入特征图第c通道第j行w列的值,zh和zw分别为h方向和W方向特征图进行平均池化的输出,F1、Fh、Fw均为1×1的卷积,和分别为第c通道特征图沿X方向和Y方向经过卷积变换后的特征; A7、获取车辆尾部检测框的信息和置信度:将车载视角里的交通场景使用经过训练的MCA-YOLOv5s网络进行检测,得到车辆尾部检测框的信息和置信度; B、通过Bytetrack模块获得车辆尾部图像的跟踪序列 将步骤A获得的车辆尾部检测框的信息和置信度输入到Bytetrack模块获得车辆尾部图像的跟踪序列;Bytetrack模块输入为前一帧车辆尾部图像所在位置经过卡尔曼滤波后得到的预测框和当前帧的检测框,将检测框按照阈值分为高分检测框和低分检测框;所述Bytetrack模块的计算方法包括以下步骤: B1、将高分检测框和前一帧车辆尾部图像所在位置经过卡尔曼滤波后得到的预测框进行外观特征匹配或IoU匹配,最终得到成功匹配的轨迹、未匹配的轨迹和未匹配的检测框,未匹配的检测框则生成新的跟踪框;所述IoU匹配即重叠度匹配; B2、将未匹配的轨迹和低分检测框进行IoU匹配,经过两次匹配后仍未匹配的轨迹将其保留30帧后删除; C、设计基于分块注意力和混洗注意力的三维时空卷积神经网络即TSA-X3d网络的识别尾灯灯语 C1、通过公开数据集或行车记录仪获取的车辆尾部序列数据集,将交通场景里的车辆尾部图像按照一定帧率裁剪下来,根据不同车辆和不同尾灯灯语分别保存;其中,根据刹车灯和转向灯状态将车辆尾灯灯语分为以下8类:OOO、BOO、OOR、OLO、BOR、BLO、OLR、BLR,其中,OOO表示车辆静止或直行,BOO表示车辆制动,OOR表示车辆准备右转或正在右转,OLO表示车辆准备左转或正在左转,BOR表示车辆准备右转或正在右转并制动,BLO表示车辆准备左转或正在左转并制动,OLR表示车辆遇紧急情况,BLR表示车辆遇紧急情况并制动; C2、TSA-X3d网络的第一部分是ResNetBasicStem即残差网络基干,它由时间卷积层和空间卷积层组成;后面接4个ResStage即残差段,每个ResStage分别包含3、5、11和7个ResBlock即残差块,每个ResBlock包含3个卷积层、1个ReLU激活函数和1个残差连接;ResBlock的第二个卷积层采用空间卷积和时间卷积,空间卷积和时间卷积均为深度可分离卷积;两个卷积之间使用批归一化层、Swish激活函数和SA注意力模块即混洗注意力模块,时间卷积后使用TSE注意力模块即分块注意力模块,最后经过ConvPool即卷积池化层、FCLayer即全连接层和AdaptiveAvgPool3d即自适应平均池化层输出最后的结果; C3、将车辆尾部序列数据集按照c:d的比例分为训练集和验证集输入到TSA-X3d网络进行训练,保存验证集上精度最高的权重文件用于灯语识别; C4、将步骤C2的TSE注意力模块首先通过池化核为7的平均池化层将输入特征图进行压缩,然后使用1×1的卷积对压缩后的特征图进行降维处理并输入到ReLU激活函数即线性整流函数,接着利用1×1的卷积对ReLU激活函数的输出进行升维处理后输入到Sigmoid激活函数即S型生长曲线激活函数;最后通过最近邻插值法将Sigmoid激活函数的输出恢复到输入张量的维度,并与输入到TSE注意力模块的特征图进行以下点乘运算: S=FnearσW2·ReLUW1·FapX 式中,是TSE注意力模块的输出,S是卷积运算后的输出,X是输入特征图,σ是Sigmoid激活函数,W1和W2是1×1的卷积,Fnear是最近邻插值法,ReLU是激活函数,Fap是平均池化,是点乘运算; C5、将步骤C2中的SA注意力模块通道特征分为g组,每组的通道特征平均分为两部分,第一部分通过平均池化层将输入的特征图压缩为1×1×1,第二部分经过组归一化层,不改变输入的维度,然后两部分分别经过线性函数进行特征提取,最后经过Sigmoid激活函数后与原特征值相乘获得不同通道和空间的重要程度;获得加权后的分组特征后,SA注意力模块将两部分通过拼接的方式进行融合,最后将不同分组的特征进行合并恢复到输入的维度后进行“混洗”操作增强不同组间的信息交互,增强网络提取时间和空间信息的能力: X′k1=σFc1FAXk1·Xk1=σW1S1+b1·Xk1 X′k2=σFc2FGNXk2·Xk2=σW2S2+b2·Xk2 式中,X′k1为第一部分的输出特征,X′k2为第二部分的输出特征,σ为激活函数,S1为平均池化后的特征,S2为归一化后的特征,W1和b1分别为第一部分线性函数的权重和偏置,W2和b2分别为第二部分线性函数的权重和偏置,Xk1为第一部分的输入特征图,Xk2为第二部分的输入特征图,FA为全局平均池化,FGN为组归一化,Fc1为第一部分的线性函数,Fc2为第二部分的线性函数; C6、使用TensorRT对MCA-YOLOv5s网络进行加速,对TSA-X3d网络进行量化处理,将保存的权重文件从FP32转为FP16;所述TensorRT为在英伟达图形处理器下运行的一个c++推理框架。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人大连理工大学,其通讯地址为:116024 辽宁省大连市高新园区凌工路2号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励