武汉理工大学三亚科教创新园陈亚雄获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉武汉理工大学三亚科教创新园申请的专利基于遥感多模态基础模型的遥感图像文本检索方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN121434261B 。
龙图腾网通过国家知识产权局官网在2026-03-06发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202512036712.X,技术领域涉及:G06F16/2455;该发明授权基于遥感多模态基础模型的遥感图像文本检索方法是由陈亚雄;杨雨童;杜闯;熊盛武设计研发完成,并于2025-12-31向国家知识产权局提交的专利申请。
本基于遥感多模态基础模型的遥感图像文本检索方法在说明书摘要公布了:本发明涉及遥感图像分析和跨模态检索技术领域。公开了基于遥感多模态基础模型的遥感图像文本检索方法,通过微调CLIP大模型,将其大规模预训练能力应用于遥感图像和文本的语义对齐。通过引入视觉显著性计算模块和视觉块细粒度选择整合模块,本发明有效地解决了遥感图像中多尺度目标和冗余信息问题,实现了图像与文本之间的细粒度语义对齐,提升了检索的精确度。尤其在图像中包含多个显著目标和冗余区域的情况下,提出的跨模态语义对齐细粒度过滤方法,能够精准识别图像中的关键信息块,并与文本描述进行精细匹配。
本发明授权基于遥感多模态基础模型的遥感图像文本检索方法在权利要求书中公布了:1.基于遥感多模态基础模型的遥感图像文本检索方法,其特征在于,包括以下步骤: 步骤S1:收集遥感图文数据集并进行预处理,将所述遥感图文数据集划分为训练集、验证集、测试集,分别用于模型训练、验证与评估;所述遥感图文数据集包括RSITMD遥感图像-文本数据集、RSICD遥感图像-文本数据集及UCM遥感图像-文本数据集; 步骤S2:构建基于遥感多模态基础模型的检索模型,所述遥感多模态基础模型采用预训练的CLIP图文大模型,所述检索模型还包括图像编码器、文本编码器、视觉显著性计算模块、视觉块细粒度选择整合模块及跨模态相似度计算模块; 所述图像编码器采用CLIP的VisionTransformer架构,提取遥感图像的图像块特征并映射至共享多模态空间,所述图像块特征表示为: ; 表示视觉块的数量,为特征的维度;代表的是遥感图像被划分后得到的个视觉块,各自对应的特征向量; 所述视觉显著性计算模块的实现过程包括: 视觉区域显著性建模:通过多头自注意力机制、前馈神经网络及层归一化计算区域显著性分数,具体公式为: ; ; ; 式中,是多头自注意力机制,是指的是前馈神经网络,用于对自注意力机制的输出进行非线性变换,增强特征序列的表达能力,是指层归一化操作;是经过多头自注意力加残差连接后的特征;是经过加残差连接加层归一化后的特征; 步骤S3:对所述检索模型进行训练,通过优化所述跨模态相似度计算模块的输出及损失函数,提升遥感图像与文本的匹配精度和训练效率; 步骤S4:将待检索的遥感图像或文本输入训练完成的检索模型,输出与所述待检索的遥感图像或文本最相关的文本或遥感图像。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人武汉理工大学三亚科教创新园,其通讯地址为:572025 海南省三亚市崖州区崖州湾科技城用友产业园9号楼;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励