Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 桂林电子科技大学陈金龙获国家专利权

桂林电子科技大学陈金龙获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉桂林电子科技大学申请的专利基于多尺度特征融合的元学习小样本图像目标检测方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116704260B

龙图腾网通过国家知识产权局官网在2025-09-19发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310816109.1,技术领域涉及:G06V10/764;该发明授权基于多尺度特征融合的元学习小样本图像目标检测方法是由陈金龙;蒋联沅设计研发完成,并于2023-07-05向国家知识产权局提交的专利申请。

基于多尺度特征融合的元学习小样本图像目标检测方法在说明书摘要公布了:本发明公开了一种基于多尺度特征融合的元学习小样本图像目标检测方法,包括:1)划分数据集:2)设计基于多尺度特征融合的元学习小样本目标检测模型;3)得到基础模型;4)得到最终模型;5)目标检测。这种方法能在小样本的实际场景中对不同尺度的目标进行识别和分类,检测效果好。

本发明授权基于多尺度特征融合的元学习小样本图像目标检测方法在权利要求书中公布了:1.一种基于多尺度特征融合的元学习小样本图像目标检测方法,其特征在于,包括如下步骤: 1划分数据集:按照实际任务情况将数据集划分为基类数据集D-base和新类数据集D-novel,基类数据集D-base是指可以获得的大规模的带有标签的数据,新类数据集D-novel是指数据量比较少的数据即小样本数据,其中,在划分基类数据D-base和新类数据D-novel时基类数据集D-base与新类数据集D-novel的交集要为空,即两个集合不能出现相同的数据样本,对于图片数据来说,一张图片只能属于一个集合中,属于基类数据集D-base的类别称之为基类,属于新类数据集D-novel的类别称之为新类,采用公开数据集PASCALVOC,随机的对数据集进行划分为基类和新类,对于小样本目标检测任务来说,基类和新类的划分为: 所有类别:'aeroplane','bicycle','boat','bottle','car','cat','chair','diningtable','dog','horse','person','pottedplant','sheep','train','tvmonitor','bird','bus','cow','motorbike','sofa'; 基类类别:'aeroplane','bicycle','boat','bottle','car','cat','chair','diningtable','dog','horse','person','pottedplant','sheep','train','tvmonitor'; 新类类别:'bird','bus','cow','motorbike','sofa',其中,所有类别20类、基类类别15类、新类类别5类,基类和新类不能有重合类别,基类类别和新类类别之后; 2设计基于多尺度特征融合的元学习小样本目标检测模型:包括: 2-1特征提取:特征提取采用resnet即ResidualNetworks网络模型,具体采用resnet101网络模型,特征提取的输入是支持图像或查询集图像,输出的是支持集图像特征或查询集图像特征,具体过程为: 在对图像进行特征提取之前对支持集图像中的目标进行标注,采用标注方式为:在表示图像的RGB三通道外,再添加一个掩码通道组成四通道,第四通道采用数字1标注出感兴趣对象的边界框,其它位置用0填充,标注完成之后,支持集的图片通道为4,对resent101网络进行修改,要求不仅可以提取3通道的图像,还可以提取4通道的图像,如果输入的图片是支持集,假设维度为15,224,224,4其中15表示支持集中有15张图图片,经过特征提取网络之后得到的3个尺度的特征,分别是15,256,56,56,、15,512,28,28和15,1024,14,14,这三个特征将会被输入到多尺度特征融合的特征金字塔网络FPN进行多尺度特征融合,如果输入的图像是查询集图像,则安装原有的resnet网络进行特征提取; 2-2多尺度特征融合:FPN网络的输入是经过特征提取网络得到的特征,输出是经过多尺度特征融合的新的图像特征,新特征包含更加丰富的信息,多尺度特征融合是只对支持集特征进行特征融合,经过步骤2-1后得到三个不同尺度的特征向量15,256,56,56,、15,512,28,28和15,1024,14,14,FPN网络将这三个不同尺度的特征图进行特征融合,得到检测同一类别不同尺度的目标,FPN的算法过程如下: 2-2-1自底向上过程:FPN的自底向上过程采用卷积神经网络CNN实现:在CNN提取图片特征时安照特征图的不同大小分为不同的尺度,每个尺度也称为stage,支持特征共有三个不同的大小,因此有三个不同的stage; 2-2-2自顶向上和侧向连接过程:自顶向上的过程采用上采样的操作,将小的特征图放大到大的特征图尺寸,将14*14大小的特征图上采样到28*28大小的特征图,然后再将这两个相同大小的特征图进行融合,FPN还设有侧向连接的结构,经过FPN操作之后维度变成15,1024,14,14; 2-3候选区域框生成:将图像特征输入到候选框生成网络RPNRegionProposalNetwork,简称RPN中得到图像的候选框,PRN网络的输入是特征图以及输入图像的元信息,元信息包括宽高以及缩放尺寸,输出是多个候选框,RPN网络的具体实现如下: 2-3-1假设batchsize为2,经过resnet101提取得到的查询特征2,1024,14,14,也就是每次输入两张查询图片,对这两张图片进行目标检测,RPN拿到了查询特征之后,会首先采用锚框生成算法AnchorGenerator生成一个个的锚框,在生成锚框时设置5个不同的大小缩放和3个不同的高宽比例,分别是2,4,8,16,32和0.5,1.0,2.0; 2-3-2得到锚框之后对这些锚框进行编码操作,从x1,y1,x2,y2编码成x,y,w,h,同时对这些数值进行均值为0、方差为1的归一化操作: 2-3-3然后采用L1损失对锚框进行回归调整,采用交叉熵损失对锚框进行二分类,判断这个锚框是否包含物体: L1损失: 交叉熵损失: Loss=-ylogP+1-ylog1-p; 2-3-4最后采用随机采样算法RandomSampler随机采样的算法具体过程是从得到的锚框中随机采样得到256个锚框作为最后的候选框; 2-4聚合过程:聚合过程将支持特征和查询特征进行融合,支持特征代表了每个类别的信息称之为元信息,经过聚合过程之后,查询特征将会得到包含在支持集中的类别信息,然后将聚合后的查询特征用于后续的网络输入,聚合过程的输入是支持特征和查询特征,输出是带有类别信息的查询特征,将查询特征和支持特征进行聚合得到新的查询特征,这个新的查询特征用于对目标框的边界框回归和分类,聚合过程包括: 2-4-1DepthWiseCorrelationAggregator聚合: DepthWiseCorrelationAggregator聚合将查询特征和支持特征在深度上进行聚合,把类别有关深度的信息进行聚合,执行流程为:首先对支持特征进行维度换位,输入到聚合函数的支持特征supportfeat的维度此时为15,1024,14,14,这是经过了FPN特征融合之后的特征,经过对supportfeat的维度换位之后,支持特征变为1024,15,14,14,然后采用查询特征作为卷积核、支持特征作为特征图,进行组卷积操作,得到最后聚合的查询特征; 2-4-2DifferenceAggregator聚合: DifferenceAggregator聚合直接采用查询特征和支持特征之间的差异化聚合,具体为:首先采用查询特征减去支持特征,表示两个特征之间的差异;然后对得到的差值进行归一化处理;最后对归一化最后的特征进行Relu操作; 2-5将候选框和查询特征输入到检测头网络对候选框进行边界回归和类别判断,最后得到最终的结果,检测头网络包括: 2-5-1共享的全连接层网络:经过特征聚合后的查询集经过这个共享网络,然后得到两个分支的输出,一个用于边界框回归的任务,另一个用于分类任务; 2-5-2ROI网络:ROI网络的作用是对经过编码之后的候选框进行特征提取,对于每个查询集中的图片,都会经过随机采样算法得到256个最终的候选框,ROI网络也将得到256个特征输出; 2-5-3BBoxHead网络:采用经过聚合的查询特征和经过ROI得到的特征进行最后的边界框回归和分类任务,并计算最后的损失,损失包括了三个部分,分别是: 边界框的L1损失: 分类的交叉熵损失: Loss=-ylogP+1-ylog1-p, 元学习的交叉熵损失: Loss=-ylogP+1-ylog1-p, 三个损失加起来就是最终检测头网络的损失; 3得到基础模型:采用D-base数据集以及元学习训练策略对网络模型进行基础训练,得到基础模型,即采用步骤1划分得到的基类数据集对步骤2设计的模型进行元学习训练,得到基础模型,元学习的训练策略是将数据集划分为一个个的任务,然后将任务输入到步骤2设计的模型中进行训练,具体训练过程如下: 3-1将公开数据集PASCALVOC基类数据集划分成支持集supportset和查询集queryset,支持集图像相当于普通的深度学习中的训练集,而查询集相当于普通深度学习中的测试机,将支持集和查询集组合在一起就是一个训练任务,元学习在训练时根据数据集的不同设置成不同的N-way-K-shot任务,在基础训练阶段,一共有15个类别的基类,每个基类只标注1个目标,因此元学习任务也叫15-way-1shot,每个任务的支持集包含15张图片,每张图片只标注1个目标,而根据GPU设备的不同,设置不同的batchsize,batchsize的大小就代表了查询集的数量大小,如果是单GPU训练,batchsize设置为2,那么每个任务中查询集的大小就是2,同理,如果是8GPU训练,每个GPU设置batchsize为2,那么查询集的数量就是8*2=16个,将划分好的支持集和查询集作为整个网络的输入; 3-2特征提取训练:将步骤3-1得到的支持集和查询集输入到101层的resnet特征提取网络中,得到支持集特征和查询集特征,支持集中包含15个图片,每个图片代表一个类别,因此经过特征提取网络得到包含每个类别信息的特征,这些特征也称之为元特征,而查询集的特征是包含了整个图像中不同类别的特征,一张查询集图片里面包含多个类别或包含多个不同尺度的类别; 3-3多尺度特征融合训练:步骤3-2对支持集图像进行特征提取之后得到支持集特征,在支持特征和查询特征融合步骤前,对支持集特征进行特征融合: 将步骤3-2得到的支持集特征输入到FPN特征融合网络中,经过网络模型的训练得到包含同一个类别的不同尺度的特征信息,采用这些信息可以提高模型对多尺度图像的识别能力; 3-4候选框生成训练:步骤3-3得到的查询集特征,将查询集特征输入到RPN网络中得到有关与这些查询集特征图的候选框; 3-5特征聚合训练:将步骤3-2得到的查询集特征和步骤3-3得到的经过多尺度特征融合的支持集特征进行聚合,即可得到新的包含类别信息的查询集特征; 3-6检测头网络训练:依据步骤3-5得到的包含类别信息的查询集特征对步骤3-4生成的目标框进行最终的目标检测任务训练,包括目标框的回归和类别的判断,经过步骤3-1-步骤3-6得到基础网络模型; 4得到最终模型:在基础模型的基础上采用D-base和D-novel数据集以及元学习策略进行微调,得到最终模型,包括: 4-1对D-base和D-novel数据集划分:D-base加上D-novel之后有20类别,经过划分之后支持集变成20张图片,而根据每张图片拥有多少个目标划分微调任务有20-way-1shot、20-way-2shot、20-way-3shot、20-way-5shot和20-way-10shot,而查询集的图片的大小依然由batchsize决定的; 4-2微调特征提取:将数据集划分成支持集和查询集之后,进行微调阶段对数据集进行特征提取,不过有微调阶段稍有不同的是在支持集有多个目标,一个目标称之为一个shot时,采用平均池化的方式将多个同一类别的支持特征变为一个支持特征,即经过特征提取之后,每个类别依然只有一个支持集特征; 4-3微调多尺度特征融合:同步骤3-3; 4-4微调候选框生成:同步骤3-4; 4-5微调特征聚合:同步骤3-5; 4-6微调检测头网络:同步骤3-6,完成步骤4到最终的网络模型; 5目标检测:采用步骤4训练好的最终模型,对小样本的多尺度数据集进行目标检测。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人桂林电子科技大学,其通讯地址为:541004 广西壮族自治区桂林市金鸡路1号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。