浙江工业大学马青获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉浙江工业大学申请的专利一种基于信息处理的遥感图文检索方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119961475B 。
龙图腾网通过国家知识产权局官网在2025-11-28发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510101077.6,技术领域涉及:G06F16/532;该发明授权一种基于信息处理的遥感图文检索方法是由马青;倪鸿泽;白琮设计研发完成,并于2025-01-22向国家知识产权局提交的专利申请。
本一种基于信息处理的遥感图文检索方法在说明书摘要公布了:一种基于信息处理的遥感图文检索方法,包括模态输入前的预处理、图文检索模型的搭建和表征对齐,其中图文检索模型搭建包括设计目标信息增强模块和噪声信息压缩模块,所述目标信息增强模块旨在多个尺度的特征通过细节引导信息注意模块将细节多信息融入到视觉特征中去以丰富图像的细节表达,所述噪声信息压缩模块将图文信息进行压缩以过滤冗余信息。本发明解决了解决现有遥感图文检索方法中存在的遥感图文信息捕捉不足以及过度关注冗余信息的问题,提升遥感图文检索精度。
本发明授权一种基于信息处理的遥感图文检索方法在权利要求书中公布了:1.一种基于信息处理的遥感图文检索方法,其特征在于,所述方法包括以下步骤: 步骤一、遥感图文预处理,对遥感图像-文本数据集的图像和文本输入进行预处理操作; 步骤二、遥感图文检索模型的搭建,包括构建图文预编码,构建目标信息增强模块和噪声信息压缩模块,获得最终的视觉和文本嵌入特征; 步骤三、表征对齐,包括相似度量和子空间表征;计算视觉和文本模态特征的余弦相似度矩阵,设计对比损失函数,设计总体损失函数,通过最小化总体损失函数实现图像和文本的对齐; 所述步骤二包括以下子步骤: 步骤2.1:构建图文预编码;所述的图文预编码包括一个视觉编码器、一个多信息编码器和一个文本编码器,过程如下: 步骤2.1.1:使用SwinTransformer网络作为视觉编码器,用于提取视觉全局类别特征和局部相关特征; 步骤2.1.2:使用一个预训练的Bert模型作为文本编码器,用于提取文本全局类别特征和局部相关特征; 步骤2.1.3:使用在AID数据集上预训练的ResNet50网络作为多信息编码器,利用卷积神经网络不同层次感受野的特点,提取多尺度特征向量,从而捕获更多遥感图像的细节特征,增强视觉表征能力; 步骤2.2:构建目标信息增强模块;将步骤2.1.3中提取的多尺度特征输入设计的细节引导信息注意模块,将细节信息融合到视觉特征中以丰富图像的细节表达;同时,通过多层感知机激活文本特征以提升文本的表达丰富度; 步骤2.3:构建噪声信息压缩模块;将步骤2.2中生成的图像特征和文本特征进行压缩处理,得到压缩的视觉特征和文本特征;然后,将各自的全局类别特征加入其中,生成视觉嵌入特征和文本嵌入特征,并通过对齐信息瓶颈函数对特征压缩过程施加约束,进一步优化特征表达; 所述步骤2.1.1中,首先将输入图像划分为个固定大小的图像块,然后用SwinTransformer网络对这些图像块进行编码,得到视觉全局特征和局部相关特征表述为: 其中表示视觉编码器,是微调权重,[·,·]表示在序列长度维度上进行堆叠和连接,m是局部相关特征的数量; 所述步骤2.1.2中,使用一个预先训练过的Bert作为文本编码器来编码文本T,从而得到文本全局类别特征和文本局部特征表述为: 其中表示文本编码器,是微调权重,n是局部相关特征的数量; 所述步骤2.1.3中,从预先训练好的ResNet50模型中选择了不同深度的卷积层,得到不同感受野的局部细节多信息C =LayerIl-1,3 其中Layer·表示ResNet50的各个卷积层,总共四个卷积层,Il-1表示l-1层的输出;然后,通过设计的细节引导信息注意模块将细节多信息融入到视觉特征中以丰富图像的细节表达,具体来说,首先将局部细节多信息C通过池化和重塑操作将C重塑为局部相关特征F的形状,从而获得预融合特征公式表示为: 其中Pool·表示池化操作,Reshape·表示重塑操作; 所述步骤2.2中,借助多头注意力方法的思想设计细节引导信息注意模块融合来自不同来源的特征信息,首先,激活图像特征,将输入Fv线性映射为三个向量:查询Qi、键Ki和值Vi,公式表示为: 其中WiQ,是可训练参数,i表示第i个注意力头,之后,就得到第l个信息块中被激活的图像特征公式表示为: 其中Softmax·是Softmax函数,h是注意力头的数量,D为图像特征Fv的维度,接下来,将预融合特征与图像特征融合,最终得到融合特征vl,公式表示为: vl=[vl,1,vl,2,...,vl,h],7 其中WjQ,WjV是可学习的参数,最后,对四个信息融合块中的特征进行选择性求和,得到最终的图像视觉特征vf,用公式表示为: 其中αl∈{0,1},其决定哪一层的图像融合特征被加入到最终图像视觉特征中; 为了增强文本的特征,使用多层感知机提取更丰富的文本信息得到最终文本特征tf,用公示表示为: tf=MLPFt9; 所述步骤2.3中,对于图像特征vf,使用掩蔽方法来减少冗余信息,通过简单的参数编码器限制图像特征vf到压缩特征ve的信息流,并使用重参数化技巧来得到ve,具体用公式表示为: ve=λvvf+1-λv∈v,10 其中即与vf有相同均值和方差的高斯分布,λv∈0,1,可以通过对一个可学习的参数αv通过Sigmoid函数得到,公式表示为: λv=Sigmoidαv,11 文本压缩特征可以通过相同的方法得到,然后将vcls和tcls分别添加到ve和te中,以避免在压缩过程中丢失这些重要信息,得到了最终的嵌入特征和
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人浙江工业大学,其通讯地址为:310014 浙江省杭州市拱墅区朝晖六区潮王路18号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励