当前位置 : 首页 > 专利喜报 > 西安电子科技大学任仲乐获国家专利权

西安电子科技大学任仲乐获国家专利权

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

龙图腾网获悉西安电子科技大学申请的专利一种基于遥感图文对比预训练特征的模态对齐与多尺度提取遥感图像描述生成方法、系统、设备及介质获国家发明授权专利权，本发明授权专利权由国家知识产权局授予，授权公告号为：CN119131196B 。

龙图腾网通过国家知识产权局官网在2026-03-31发布的发明授权授权公告中获悉：该发明授权的专利申请号/专利号为：202411168466.2，技术领域涉及：G06T11/60；该发明授权一种基于遥感图文对比预训练特征的模态对齐与多尺度提取遥感图像描述生成方法、系统、设备及介质是由任仲乐;孟建华;张诚;侯彪;李卫斌;焦李成设计研发完成，并于2024-08-23向国家知识产权局提交的专利申请。

本一种基于遥感图文对比预训练特征的模态对齐与多尺度提取遥感图像描述生成方法、系统、设备及介质在说明书摘要公布了：一种基于遥感图文对比预训练特征的模态对齐与多尺度提取遥感图像描述生成方法、系统、设备及介质，方法包括：获取遥感字幕生成数据集NWPU‑Captions；对遥感字幕生成数据集NWPU‑Captions的训练集、验证集和测试集的文本和图像预处理，得到词表和文本特征以及图像特征；搭建基于Transformer模型的遥感字幕生成网络；使用训练集训练基于Transformer模型的遥感字幕生成网络，再将验证集输入每个轮次得到模型中验证，挑选效果最好的模型；将测试集中的图像特征输入效果最好的模型，得到图像对应的字幕；系统、设备及介质用于实现该方法；本发明使用对比预训练的图像编码器、多尺度融合提取模块、文本编码模块，能提取更具语义、更多尺度的特征，可以使生成的描述包含更高级、更详细的语义词汇。

本发明授权一种基于遥感图文对比预训练特征的模态对齐与多尺度提取遥感图像描述生成方法、系统、设备及介质在权利要求书中公布了：1.一种基于遥感图文对比预训练特征的模态对齐与多尺度提取遥感图像描述生成方法，其特征在于，包括以下步骤：步骤1，获取遥感字幕生成数据集NWPU-Captions，包括训练集、验证集和测试集；步骤2，对步骤1获取的遥感字幕生成数据集NWPU-Captions的训练集、验证集和测试集的文本和图像进行预处理，文本预处理包括序列化、填充和生成词表，得到词表和文本特征；图像预处理包括缩放为统一尺寸、归一化，得到图像特征；步骤3，搭建基于Transformer模型的遥感字幕生成网络，包括：图像编码器模块、文本编码器模块和Transformer解码器模块；并设置网络的超参数，包括：图像编码器模块的提取特征层数、Transformer解码器模块的层数；文本编码器模块的层数、多头注意力的头数、隐藏层的维度，以及学习过程相关的设置，包括优化器、学习率、预热步数；所述步骤3中的基于Transformer模型的遥感字幕生成网络包括图像编码器模块、文本编码器模块和Transformer解码器模块；图像编码器模块：用于提取图像特征，该编码器使用公开的RS5M遥感图文数据集对在自然图文数据集上经过对比预训练的ViT模型进行了微调，图像编码器模块由32层Transformer子层构成，以提取多层的图像特征，利用其不同层次的特征，每一层的特征维度为256×1280；文本编码器模块：用于对文本特征编码，得到上下文相关的文本特征；文本编码器模块包括自注意力层和二层前馈层，输入为经过步骤2预处理过的文本特征，再经过词嵌入WordEmbed层、加上位置编码；自注意力层中，文本特征作为注意力的Q,K,V，根据上下文语境进行学习，学习到不同词之间的关系，引入二个前馈层，先将维度变为2048，再变回512，使整个模块得到输入和输出维度保持不变；文本编码器模块的每一层用公式表示为：其中，T为输入的文本特征，W是权重矩阵，b是偏置，d是缩放因子，SelfAttn为自注意力，FFN为前馈层，LayerNorm为层归一化； Transformer解码器模块：用于对多尺度特征的自适应提取，并融合文本特征；所述Transformer解码器模块由自注意力层、多尺度特征融合提取层、交叉注意力层和前馈层构成，输入为文本编码模块输出的特征和图像编码器模块提取的多层的图像特征；自注意力层、前馈层和文本编码器模块一致；多尺度特征融合提取层包括融合和提取二个步骤：融合步骤直接将提取的多层图像特征在通道维度拼接，经过一个线性层将维度调整回512维；提取步骤是将融合后的特征分别做通道注意力和空间注意力，分别得到通道加权和空间加权的特征；交叉注意力层中，图像特征作为K,V,文本特征作为Q,分别做交叉注意力，得到的特征分别经过一个线性层、Sigmoid函数计算对应的权重，分别用自己的权重对得到的特征进行一个加权，得到融合文本和图像的融合特征；融合特征有空间维度和通道维度的，将这二个特征进行加和运算，再通过前馈层，得到输出；所述Transformer解码器模块的每一层用公式表示为：其中，T为输入的文本特征，W是权重矩阵，b是偏置，d是缩放因子，V,V,V为图像编码提取的多层图像特征，LayerNorm为层归一化，为空间注意力为通道注意力，CrossAttention表示交叉注意力，FFN表示线性层，Concat表示拼接操作，“+”表示按元素加法，表示按元素乘法；步骤4，将步骤2预处理后的训练集的图像特征和文本特征输入步骤3搭建的基于Transformer模型的遥感字幕生成网络，对生成的描述进行交叉熵损失训练，得到训练好的基于Transformer模型的遥感字幕生成网络，再将验证集输入每个轮次得到模型中进行验证，根据在验证集上的表现，挑选出效果最好的模型；步骤5，将步骤2预处理后的测试集中的图像特征输入到步骤4效果最好的模型，得到图像对应的字幕。

如需购买、转让、实施、许可或投资类似专利技术，可联系本专利的申请人或专利权人西安电子科技大学，其通讯地址为：710071 陕西省西安市雁塔区太白南路2号；或者联系龙图腾网官方客服，联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

请提出您的宝贵建议，有机会获取IP积分或其他奖励

西安电子科技大学任仲乐获国家专利权

热门推荐

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务