Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
专利交易 积分商城 国际服务 IP管家助手 科技果 科技人才 商标交易 会员权益 需求市场 关于龙图腾 更多
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 吉林大学王世刚获国家专利权

吉林大学王世刚获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉吉林大学申请的专利基于粗掩码平滑标签监督的任意角度目标检测方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115393710B

龙图腾网通过国家知识产权局官网在2026-03-06发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210941835.1,技术领域涉及:G06V20/10;该发明授权基于粗掩码平滑标签监督的任意角度目标检测方法是由王世刚;梁业成;赵岩;陈玫玫;韦健设计研发完成,并于2022-08-08向国家知识产权局提交的专利申请。

基于粗掩码平滑标签监督的任意角度目标检测方法在说明书摘要公布了:基于粗掩码平滑标签监督的任意角度目标检测方法属人工智能深度学习和计算及视觉目标检测与分割技术领域,本发明使用GLSMask‑RCNN模型,完成对可见光遥感图像中任意角度非水平目标的检测,对具有大长宽比且分布密集的目标具有优良的检测性能;由于本发明为基于像素级别掩码分割的检测方法,并引入可自适应的二维高斯标签平滑以优化粗标签的监督,因此在训练和实际检测阶段,都能解决非水平目标检测任务中常见的边界问题,模型的检测性能更加稳定。本发明为可见光遥感图像目标检测提供了一种有效的新方案,并且适用于其它类型图像的非水平目标检测场景。

本发明授权基于粗掩码平滑标签监督的任意角度目标检测方法在权利要求书中公布了:1.基于粗掩码平滑标签监督的任意角度目标检测方法,其特征在于包括下列步骤: 1.1获取数据集及预处理,包括下列步骤: 1.1.1根据DOTA数据集官方标签标准,即每个目标包含类别,横坐标1,纵坐标1,横坐标2,纵坐标2,横坐标3,纵坐标3,横坐标4,纵坐标4的形式,对所需要处理的可见光遥感图像数据集进行目标检测框标签;将可见光遥感图像数据集按照7:2:1的比例进行训练集、验证集和测试集的划分;若存在训练数据有限的情况,可以通过随机采样的方式,在DOTA官方数据集中进行采样,并将可见光遥感图像数据集填充至DOTA数据集相当的规模; 1.1.2对步骤1.1.1获取的具有检测框标签的可见光遥感图像数据集进行增强预处理,包括随机翻转、随机角度旋转、随机裁剪、高斯模糊、高斯噪声、对比度增强、色彩抖动以及亮度增强,以增强数据集的特征多样性和规模;其中,涉及图像坐标位置变换的增强方案,需要以相同的偏置对目标检测框标签进行相同的变换; 1.2构建GLSMask-RCNN网络 GLSMask-RCNN网络的各项参数设置,包括下列步骤: 1.2.1构建Backbone骨干特征提取网络:Backbone骨干网络用于对输入图像进行特征提取,该部分的总体结构为ResNet101,包括下列步骤: 1.2.1.1ResNet101是一种深层的卷积神经网络,其特点是引入残差结构,形成残差网络,在模型正向及反向传播的过程中,具有跳跃连接的信息传播通路,能有效避免深层神经网络常见的梯度消失和梯度爆炸的现象,使模型的深度得以加深而进行高效的特征提取; 1.2.1.2残差网络的最基本结构是残差块,残差块分为两路分支,包括主路径和残差边;残差网络通过堆叠残差块结构,能对输入的RGB图像进行处理,最终得到通道数为2048,下采样率为32的深层特征; 1.2.1.3主路径包括三重卷积操作,顺序结构为卷积核大小为1×1的卷积层、批标准化层、ReLU激活函数、卷积核大小为3×3的卷积层、批标准化层、ReLU激活函数层、卷积核大小为1×1的卷积层、批标准化层以及ReLU激活函数层; 1.2.1.4残差边是从主路径的输入到输出之间跳跃连接的加和结构,残差网络对输入图像进行了5次下采样,均通过调整残差块第一层卷积层的步长为2,并在残差边加入步长为2的卷积层完成; 1.2.2构建Neck特征金字塔特征融合结构:使用特征金字塔FPN进行特征融合,包括下列步骤: 1.2.2.1FPN总体上是对ResNet101在提取特征的过程中所产生的各层中间特征进行上采样,并与对应的上一层特征进行融合,以达到对输入图像不同层级尺度的特征的有效融合; 1.2.2.2FPN将ResNet101中第二层级至第五层级的特征作为输入;在对每一层级的处理中,分为上采样和融合两个操作阶段;上采样操作首先对深层特征图进行卷积核尺寸为1×1的卷积操作,以缩减特征图的通道数,再通过双线性插值算法对特征图尺寸进行放大;融合操作首先对上采样得到的特征图和上一层级的特征图,以逐像素加和的方式进行简单融合,再对融合结果利用卷积核大小为3×3的卷积操作,进一步完善深浅层特征的融合; 1.2.2.3第五层级的骨干网络特征图直接通过FPN中的卷积核为1×1的卷积层和卷积核为3×3的卷积层得到第四层级的FPN特征图;第五层级的FPN特征图,由第四层级的FPN特征图经过最差池化下采样得到; 1.2.2.4FPN网络的输出总共包括五个层级,每个层级拥有不同的特征图尺寸,并且通道数均为256; 1.2.3区域建议网络RPN:继承Mask-RCNN模型中的区域建议网络,作用是依据输入特征图,生成目标的感兴趣区域位置建议,包括下列步骤: 1.2.3.1区域建议网络的输入特征为FPN的各层级输出特征;在结构上,RPN由一个卷积核尺寸为3×3的卷积层,以及并行的两个卷积核大小为1×1的卷积层组成; 1.2.3.2RPN的两部分输出的通道数分别为18和36,含义为每个输入特征像素位置,匹配9个预设的不同长宽比和尺寸的锚定框,为每个锚定框输出2个分别代表前景和背景的概率的预测分数,以及4个分别代表锚定框调整至建议框的偏置参数:x,y,h,w; 1.2.3.3按照前景的分数选取2000建议框,并进行非极大值抑制处理,得到最终的建议框参数; 1.2.3.4根据建议框参数对FPN的各层输出特征进行截取,即可得到目标的感兴趣区域位置建议; 1.2.4ROIAlign:对RPN生成的不同尺寸的感兴趣区域特征,利用双线性插值算法进行下采样,得到空间尺寸统一为7×7和14×14的感兴趣区域特征; 1.2.5BBOX头部网络:BBOX头部网络根据输入的感兴趣区域特征为目标输出类别及检测框参数的预测;该部分包括下列步骤: 1.2.5.1BBOX头部网络的输入特征是尺寸为7×7的感兴趣区域特征; 1.2.5.2BBOX头部网络的顺序结构为卷积核尺寸为3×3的卷积层、卷积核尺寸为1×1的卷积层以及并行的分类器和回归器;分类器由全局平局池化层和BBOX类别全连接层组成;回归器由全局平均池化层和BBOX参数回归全连接层组成; 1.2.5.3BBOX类别全连接层的神经元个数等于类别数目,输出的类别预测向量后继经过softmax激活处理为各类别的归一化预测概率; 1.2.5.4BBOX参数回归全连接层的神经元个数等于类别数目乘以4,用于逐步细化感兴趣区域的提取; 1.2.6GLSMask头部网络:GLSMask头部网络根据输入的感兴趣区域特征为目标输出再像素层面的分割掩码预测,包括下列步骤: 1.2.6.1GLSMask头部网络的输入特征是尺寸为14×14的感兴趣区域特征; 1.2.6.2GLSMask头部网络的顺序结构为卷积核尺寸为3×3的卷积层、卷积核尺寸为2×2的转置卷积层,以及卷积核尺寸为1×1的卷积层; 1.2.6.3GLSMask头部网络最终的输出尺寸为28×28×类别数目,即通道数目等于类别数目,对每个目标对应每个类别预测一个分割掩码; 1.2.7头部堆叠优化结构:对BBOX头部网络和GLSMask头部网络所组成的并行头部结构,进行三次级联堆叠;对于阶段一的头部结构,输入为RPN根据建议框所得到的感兴趣区域特征;对于二、三阶段的头部结构,感兴趣区域特征根据上一层头部结构输出的检测框得到; 1.2.8基于掩码的任意角度检测框生成:三层级联堆叠的头部结构,在最终层级得到最优的目标掩码及类别的预测;首先将28×28的最终掩码预测特征,并利用双线性插值进行上采样,得到空间尺寸与第三层级头部输出的检测框尺寸一致的逐像素分割掩码预测概率图;根据预设的阈值,对概率图进行二值化,得到最终的目标分割掩码;对分割掩码进行去噪和连续化,并生成相应的最小外接矩形;该最小外接矩形即是对目标的任意角度的检测框; 1.3模型训练: 1.3.1为模型训练配置相关数据迭代参数,包括batchsize=8,max_epoch=100,num_workers=4; 1.3.2使用Adam优化器,初始学习率为0.002,momentum设为0.5,平滑参数β1=0.9,β2=0.999,weight_decay=0.0001;预热阶段学习率采用线性增加策略,训练阶段使用StepLR策略调整学习率; 1.3.2GSL标签分割粗标签优化: 任意角度目标检测任务的数据集中,标签类型为四边形检测框的四个角点坐标;在本方法中,对于每个目标而言,分割掩码信息是基于四个角点生成;然而,对于大多数目标,例如舰船、港口、飞机,这种方式生成掩码在四周及边缘处涵盖了背景的纹理信息,属于粗标签;本方法提供了一种长宽自适应的二维高斯标签平滑技术,对01分割掩码标签的四周进行缩减平滑处理,使处理后的分割掩码标签丢弃无用信息,保留更有利于目标本身语义及方向表征的信息; 1.4损失函数 模型的损失函数总体分为两部分,包括RPN多任务损失函数和每层级头部网络输出的多任务损失函数,详细描述如下: 1.4.1RPN多任务损失函数,其表达式为: 其中:pi表示第i个anchor预测为真实标签的概率;表示第i个anchor的真实类别标签,当为正样本时为1,当为负样本时为0;ti表示预测第i个anchor的边界框回归参数;表示为第i个anchor对应的真值边界框的回归参数;Ncls表示一个mini-batch中所有样本数量,即最终采样处正负样本的数量,为256;Nreg表示anchor位置的个数,约为2400;为二值交叉熵损失,表达式为: smoothL1损失函数,表达式为: 1.4.2各层级头部网络输出的多任务损失函数,其表达式为: 其中:p为分类器预测的softmax概率分布p=p0,…,pk;u为对应目标真实类别标签;tu为对应边界框回归器预测的对应类别u的回归参数v为对应真实目标的边界框回归参数vx,vy,vw,vh;Lclsp,u为交叉熵损失函数,表达式为: Lclsp,u=-logpu Lloctu,v为SmoothL1损失函数,表达式为: 其中:LGSLMask为使用自适应二维高斯标签平滑优化的二维交叉熵损失函数,表达式为: 其中:pi,j为GSLMask头部网络输出特征点的预测概率;N为GSLMask头部网络输出特征图尺寸;Wi,j为自适应二维高斯标签平滑的窗函数,表达式为: 其中:θ为根据粗标签四个角点坐标计算得到的夹角,具体为四边形较长的对边中点连线与x轴所成的夹角;x,y为GSLMask头部网络输出的特征图的像素点位置坐标; 其中:d{·}表示两点之间的距离;D为超参数,预设为4;m*,n*为通过四个角点计算得到的各边中点的横坐标和纵坐标。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人吉林大学,其通讯地址为:130012 吉林省长春市长春高新技术产业开发区前进大街2699号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。