北京理工大学岳裕丰获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉北京理工大学申请的专利开放场景多模态图像-文本零样本语义分割方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119399458B 。
龙图腾网通过国家知识产权局官网在2025-10-21发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411352873.9,技术领域涉及:G06V10/26;该发明授权开放场景多模态图像-文本零样本语义分割方法及系统是由岳裕丰;于萌;杨罗婕;杨毅设计研发完成,并于2024-09-26向国家知识产权局提交的专利申请。
本开放场景多模态图像-文本零样本语义分割方法及系统在说明书摘要公布了:本发明公开了开放场景多模态图像‑文本零样本语义分割方法及系统,属于图像语义分割技术领域,适应于处理热感以及红外图像,提升RGB‑T语义分割在多个场景的零样本泛化性能。包括两个阶段:RGB‑T开放词汇目标检测阶段和语义分割阶段。RGB‑T开放词汇目标检测阶段以像素级配对的RGB图像和热感图像以及文本作为多模态输入,利用文本信息和视觉提示作为条件,为融合图像的目标区域生成初始检测提议,对初始检测提议进行语义一致矫正修正有歧义的类别,得到矫正后的预测类别。语义分割阶段将矫正后的检测类别作为分割基础模型的提示,对融合图像进行语义分割并生成对目标的文字说明。
本发明授权开放场景多模态图像-文本零样本语义分割方法及系统在权利要求书中公布了:1.开放场景多模态图像-文本零样本语义分割方法,其特征在于,包括两个阶段:RGB-T开放词汇目标检测阶段和语义分割阶段; 所述RGB-T开放词汇目标检测阶段以像素级配对的RGB图像和热感图像以及文本作为多模态输入,利用文本信息和视觉提示作为条件,为融合图像的目标区域生成初始检测提议,对初始检测提议进行语义一致矫正修正有歧义的类别,得到矫正后的预测类别;所述利用文本信息和视觉提示作为条件,为融合图像的目标区域生成初始检测提议,具体采用如下步骤: 步骤S1:采用基于注意力的融合模块获得RGB图像和热感图像的动态融合权值,对其进行自适应融合,获得融合后图像表示为If; 步骤S2:对用户自定义的文本Ts进行类别提取,得到预定义的语义类别T={t1,t2,...,tK},其中K表示语义类别的数量,其次分别将融合图像和预定义的语义类别输入到开放词汇目标检测器GroundingDINO中,得到以文本为提示的检测提议vgd=DetgdT,If,其中Detgd·,·表示带有文本提示的检测过程; 步骤S3:在该场景图像中选取J个语义目标区域,并进行裁剪,得到J个视觉提示图像检测框bj=xj,yj,wj,hj,其中j=1,2,...,J;xj、yj分别表示检测框左上角的横坐标和纵坐标,wj、hj分别表示检测框的宽度和高度;通过视觉编码器得到视觉嵌入V:V=Enb1,b2,...,bJ;其中En表示视觉编码器; 步骤S4:融合图像经过图像编码器,与视觉嵌入V共同输入到解码器中,输出以视觉为提示的检测提议vvp=DeV,f;其中De表示解码器,f表示经过图像编码器输出的特征图; 步骤S5:整个多提示检测阶段预测的目标检测提议表示为:vN=vgd∪vvp;其中N表示初始检测提议的个数; 所述对初始检测提议进行语义一致矫正修正有歧义的类别,得到矫正后的预测类别,具体为: 初始检测提议v1,v2,...,vN对应的初始类别id分别为 利用预训练的图文匹配模型CLIP分别对图像检测提议和预定义的语义类别T={t1,t2,...,tK}进行独立编码,获得对应的视觉嵌入和文本嵌入分别记作和K是文本类别数量;视觉嵌入和文本嵌入之间的相似度分数计算如下: 其中表示第n个检测提议的视觉嵌入,表示第k个类别的文本嵌入,Fnk对应第n个检测提议属于第k个类别的预测置信度,·,·表示点积运算; 对于每个检测提议,选择预测得分最高的类作为预测的类标签其中.index为索引调用函数,指向置信度分数对应的类别k;如果预测的类别与初始检测类别匹配,即判断是否成立,若成立,则表示语义理解一致,无需进一步校正; 如果预测的类别与初始检测类别不同,则需要根据以下条件执行额外的判断: 根据相似度分数检索得到初始检测类别对应的置信度得分: 然后,采用以下两个条件进行判断: 其中th1和th2是两个常量阈值,如果以上两个条件都满足,则共同确定该检测提议应该更新为预测类别; 所述语义分割阶段将所述矫正后的检测类别作为分割基础模型的提示,对融合图像进行语义分割并生成对目标的文字说明。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京理工大学,其通讯地址为:100081 北京市海淀区中关村南大街5号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励