Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 积分商城 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 山西大学白茹意获国家专利权

山西大学白茹意获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉山西大学申请的专利一种融合卷积与ViT的图像方向识别方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116664952B

龙图腾网通过国家知识产权局官网在2025-12-19发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310759553.4,技术领域涉及:G06V10/764;该发明授权一种融合卷积与ViT的图像方向识别方法是由白茹意设计研发完成,并于2023-06-26向国家知识产权局提交的专利申请。

一种融合卷积与ViT的图像方向识别方法在说明书摘要公布了:本发明属于图像分类与计算机视觉技术领域,公开了一种融合卷积与ViT的图像方向识别方法。针对图像方向识别方法大多考虑图像的语义信息,对空间和方向信息考虑不足。提出了方向金字塔ViT模型,它融合了卷积神经网络和ViT框架来实现图像方向的自动识别。MOAB捕捉不同尺度下中心子图与其周围邻域子图之间的相对位置信息;将条件位置编码和可变形卷积进行结合,即DCPE。DCPE在条件位置编码中加入了可变形卷积,既能适应不同尺寸的输入图像,又能表达图像的旋转特性;将方向卷积方法应用于TransformerEncoderBlock中的Self‑Attentation,即DTEB。DTEB压缩了浅层特征的分辨率,提高了特征提取能力。经过实验验证,该方法更全面地表达图像的方向语义,在准确性和性能方面都超过了当前最先进的模型。

本发明授权一种融合卷积与ViT的图像方向识别方法在权利要求书中公布了:1.一种融合卷积与ViT的图像方向识别方法,其特征在于,包括以下步骤: 步骤1,将每幅图像分别按顺时针旋转四个角度0度、90度、180度和270度,每幅图像最终得到四个不同方向的图像; 步骤2,输入一幅图像,采用多尺度OutlookAttentation模块,即MOAB,计算每个中心点与周围不同尺度邻域内的k×k个像素点的注意力,k表示当前位置对应的邻域尺度;所述MOAB能捕捉某个中心子图与其周围邻域子图的相对位置信息,具体步骤如下: 步骤2.1,对大小为H×W×C的输入图像进行线性变换,得到维度为H×W×k4的特征图,其中,H表示特征图的高度,W表示特征图的宽度,C表示特征图的通道数; 步骤2.2,将步骤2.1中得到的H×W×k4特征图的维度变换成注意力特征图,之后采用SoftMax得到注意力图AM; 步骤2.3,采用“Linear+Unfold”操作将注意力图AM映射到一个新的特征空间; 步骤2.4,将注意力图AM与特征空间进行矩阵相乘,之后通过“Fold”操作,将特征图还原到原始输入图像的大小; 步骤2.5,采用不同的尺度k=3或5分别执行步骤2.1~2.4,得到不同尺度的OA;分别记作OA_3和OA_5; 步骤2.6,将OA_3、OA_5和输入特征进行线性相加,记作OA_Fusion=OA_3⊕OA_5⊕inputfeature;其中,⊕表示对应元素相加; 步骤2.7,最后,对OA_Fusion使用层归一化LN和多层感知机MLP的残差连接,即OA_Fusion+LNamp;MLPOA_Fusion,得到新的特征图; 步骤2.8,将步骤2.7得到的特征图进行PatchEmbedding,包括:一个卷积操作,层归一化LayerNorm和展平Flatten操作,最终,得到token序列N×d,其中N表示序列的个数,d表示序列的维度; 步骤3,将条件位置编码和可变性卷积进行结合,即把条件位置编码中的F函数替换为可变性卷积,记作DCPE,具体步骤如下: 步骤3.1,将步骤2.8中得到的token序列作为输入,并把维度变换为二维图像空间中的H×W×C; 步骤3.2,采用kernel_size=3,stride=1,进行卷积操作,卷积后的结果表示每个像素的位置偏移量offsetH×W×2M;其中,M=3×3,通道数2M表示“横坐标”和“纵坐标”两个方向的偏移,输出的offset与输入特征图具有相同的空间分辨率; 步骤3.3,根据步骤3.2中得到的offset,计算新的M个点在特征图上的值; 步骤3.4,对步骤3.3中得到的特征图通过卷积操作kernel_size=3,stride=1,得到新的特征图,维度是H×W×C; 步骤3.5,最后再将特征图的维度进行变换,得到新的token序列,新的token序列的维度与步骤3.1中的token序列维度相同; 步骤4,采用方向卷积方法,从不同的方向和尺度进行卷积融合,并将其作用于ViT中TranformerEncoderBlock模块的多头自注意力机制,记作DTEB;所述DTEB将浅层特征尺度压缩到最低分辨率,增加网络特征提取能力并保持高效的计算效率,具体步骤如下: 步骤4.1,对步骤3.5中得到的token序列的维度变换为二维特征图H×W×C; 步骤4.2,所述特征图通过线性变换WK获得键值K,通过方向卷积压缩特征图的空间分辨率,然后使用WQ和WV分别获得查询Q和值V,其中,WQ、WK和WV都使用1×1卷积; 步骤4.3,采用多头注意力机制生成Q和K的注意力权重,并将其应用于V,即:,其中,dK是指键值K的维度,QKT表示Q和K的点积; 步骤5,构建一个融合卷积神经网络和ViT的框架,即方向金字塔ViT模型,即DPVT,DPVT分为Stage_ii=1,2,3,4四个阶段,每个阶段都使用MOAB、DCPE和DTEB的组合,每个阶段的输入是一个3D特征图,具体步骤如下: 步骤5.1,在Stage_i阶段,特征图Hi−1×Wi−1×Ci−1使用3×3卷积对分辨率进行下采样并增加输出通道的数量;Stage_1的下采样率为4,Stage_2、Stage_3和Stage_4阶段的下采样率均为2;输出patch的大小为,其中,表示Stage_i的下采样率,表示特征图的高度,表示特征图的宽度,表示特征图的通道数; 步骤5.2,将步骤5.1中获得的特征图输入到MOAB模块中,产生每个空间位置上的patch与其周围局部邻域的patch之间的相关注意力权重; 步骤5.3,经过方向卷积和层归一化操作之后,对特征图进行进一步展平操作,得到token序列,维度是; 步骤5.4,使用DCPE对token序列进行位置编码,并与原始token序列进行相加,得到带有位置编码的token序列; 步骤5.5,将带有位置编码的token序列输入到DTEB中,降低Transformer计算复杂度,提升网络对图像方向检测的准确率; 步骤5.6,将步骤5.5中的token序列变换成一个3-D特征图,Stage_1、Stage_2、Stage_3和Stage_4阶段的输出特征图大小分别是输入图像的、、和,即通道数增大4倍,2倍,2倍和2倍;因此,4个阶段的特征图分别是原图大小的、、和; 步骤5.7,利用卷积神经网络的结构将全局平均池化层作用于Stage_4的输出特征图;采用全连接层进行最后的分类映射; 步骤5.8,为了适应不同规模的应用场景,根据每个Stage_i中参数选取不同的值构建了三种不同容量的DPTV模型。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人山西大学,其通讯地址为:030006 山西省太原市坞城路92号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。