中南大学郭菲获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉中南大学申请的专利一种基于图文融合的少样本语义分割方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119273914B 。
龙图腾网通过国家知识产权局官网在2025-06-10发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411284272.9,技术领域涉及:G06V10/26;该发明授权一种基于图文融合的少样本语义分割方法是由郭菲;陈思宇;马世强;方家祥设计研发完成,并于2024-09-13向国家知识产权局提交的专利申请。
本一种基于图文融合的少样本语义分割方法在说明书摘要公布了:本申请涉及计算机视觉领域,公开了一种基于图文融合的少样本语义分割方法,包括以下步骤:S1、收集并预处理数据集,所述数据集按类别分组,每组包含若干支持图像和查询图像;S2、利用预训练的深度神经网络提取多尺度图像特征;S3、使用文本编码器提取预设文本提示的文本特征;S4、将提取的文本特征与图像特征进行融合;S5、利用注意力机制挖掘支持图像特征与查询图像特征之间的相关性;S6、对融合后的图像特征进行上采样,并解码生成分割预测结果。本发明通过图文融合与文本提示补充语义信息,显著提升了少样本语义分割的准确率和性能。
本发明授权一种基于图文融合的少样本语义分割方法在权利要求书中公布了:1.一种基于图文融合的少样本语义分割方法,其特征在于,包括以下步骤:收集并预处理数据集,所述数据集按类别分组,每组包含若干支持图像和查询图像;利用预训练的深度神经网络提取多尺度图像特征;使用文本编码器提取预设文本提示的文本特征;将提取的文本特征与图像特征进行融合;利用注意力机制挖掘支持图像特征与查询图像特征之间的相关性;对融合后的图像特征进行上采样,并解码生成分割预测结果;所述利用预训练的深度神经网络提取多尺度图像特征的步骤包括:将输入图像Xi输入到预训练的深度神经网络中,提取多尺度的图像特征Z1;通过预训练的深度神经网络的不同层次,依次提取出四个尺度的图像特征,分别记为X1,X2,X3,X4,其中X1,X2,X3,X4依次表示从浅层到深层的图像特征;对深层特征图X4进行全局平均池化,得到图像的全局特征公式为: 将全局特征与深层特征图X4一起输入多头自注意力机制,以增强图像的特征表达能力,公式为: 其中,表示增强后的全局特征,Z表示增强后的图像特征;所述使用文本编码器提取预设文本提示的文本特征的步骤包括:预设文本提示,所述文本提示与图像中的目标类别相关,用于指示待分割的目标类别;将所述文本提示输入到文本编码器Transformer中,以提取与该提示相关的文本特征;文本编码器Transformer对输入的文本提示进行处理,通过自注意力机制捕捉文本中的上下文信息,生成一个表示文本语义的文本特征向量t,公式为:t=Transformertextprompt其中,textprompt表示所述预设文本提示,t表示从文本提示中提取到的文本特征向量;所述将提取的文本特征与图像特征进行融合的步骤包括:通过一个由三层Transformer组成的Transformer解码器,将增强后的图像特征Z与文本特征向量t进行融合,生成包含视觉信息的文本特征V,公式为: 其中,Z表示增强后的图像特征,t表示文本提示中提取到的文本特征向量,V表示经过融合后的包含视觉信息的文本特征;利用可学习的缩放参数α,将经过融合后的包含视觉信息的文本特征V与从文本提示中提取到的文本特征向量t进行加权组合,生成更新后的文本特征t′,公式为:t′=t+αV其中,α是控制视觉信息对文本特征影响的可学习的缩放参数,t′为更新后的文本特征,包含来自图像的语义信息;计算更新后的文本特征t′与多尺度的图像特征Z1之间的相关性,生成得分图S,公式为:S=Z1t′将得分图S与原始的深层特征图X4进行拼接,形成融合后的图像特征X′4,以便于后续的解码和分割,公式为:X′4=[X4,S]其中,X4为原始的深层特征图,S为得分图,X′4为融合后的图像特征,结合了图像与文本的多模态信息;所述利用注意力机制挖掘支持图像特征与查询图像特征之间的相关性的步骤包括:将从支持图像中提取的特征Fs与从查询图像中提取的特征Fq进行展平处理,展平操作将多维特征图转换为一维向量,公式为:F′s=flattenFsF′q=flattenFq对展平后的支持图像特征F′s和查询图像特征F′q分别进行线性映射,生成查询向量Q、键向量K和值向量V,公式为:Q=linearflattenF′qK,V=linearflattenF′s利用自注意力机制计算查询向量Q与键向量K之间的相关性,相关性通过查询向量Q与键向量K的点积计算得到,并通过归一化操作生成注意力权重,进而对值向量V进行加权处理,公式为: 其中,softmax·表示归一化操作,为缩放因子,d为向量的维度,AttenQ,K,V为加权后的特征表示;通过上述注意力机制,挖掘支持图像特征Fs与查询图像特征Fq之间的相关性,得到增强的查询图像特征公式为: 其中,为经过注意力机制增强后的查询图像特征,包含与支持图像特征相关的语义信息,进一步用于提高少样本语义分割的准确性。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中南大学,其通讯地址为:410006 湖南省长沙市岳麓区麓山南路932号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。