西安交通大学韩忠昱获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉西安交通大学申请的专利一种基于文本引导与多尺度融合的单目深度估计方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119941816B 。
龙图腾网通过国家知识产权局官网在2025-11-14发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510111292.4,技术领域涉及:G06T7/50;该发明授权一种基于文本引导与多尺度融合的单目深度估计方法及系统是由韩忠昱;靖博洋;倪梓翔;张雄凡;徐亦飞;尉萍萍;饶元设计研发完成,并于2025-01-23向国家知识产权局提交的专利申请。
本一种基于文本引导与多尺度融合的单目深度估计方法及系统在说明书摘要公布了:本发明公开了一种基于文本引导与多尺度融合的单目深度估计方法及系统,采用了跨语义注意力模块动态融合这些特征,并结合多尺度残差融合模块显著提升了深度估计的准确性和鲁棒性。与仅依赖图像特征的传统方法不同,本实施例的方法充分利用了预训练编码器中继承的丰富语义先验,从而增强了图像特征的表达能力。此外,图像的对应文本描述被编码后作为先验知识融入模型。通过交叉注意力机制动态调整图像和文本特征的权重并将它们融合在一起,随后通过多尺度残差计算捕捉图像在不同分辨率下的细粒度变化,使模型能够同时理解细节的局部信息和全局场景布局。这种设计不仅增强了模型适应复杂场景的能力,还显著提升了深度边界和细节的恢复效果。
本发明授权一种基于文本引导与多尺度融合的单目深度估计方法及系统在权利要求书中公布了:1.一种基于文本引导与多尺度融合的单目深度估计方法,其特征在于,包括以下步骤: 获取原始图像的视觉特征,以及原始文本的文本特征; 将文本特征映射到与原始图像的视觉特征相同的维度,得到处理后的文本特征,将处理后的文本特征引入原始图像的视觉特征中,得到带有语义引导的图像特征,基于所述视觉特征对所述文本特征进行增强,得到增强的文本特征; 通过双向交叉引导将增强的文本特征引入到带有语义引导的图像特征中,得到最终增强的图像特征,获取增强图像; 对原始图像和增强图像进行多尺度拉普拉斯残差计算,获取原始图像和增强图像之间的残差信息,基于残差信息和增强的图像特征进行融合操作,得到估计的深度图像; 所述将文本特征映射到与图像信息相同的维度,通过下式得到处理后的文本特征ti: 其中,表示尺度i对应的投影矩阵,它的维度是1024×Ci;Ci是第i层图像特征的通道数; 所述将处理后的文本特征引入原始图像的视觉特征中,得到带有语义引导的图像特征,基于原始图像的视觉特征对文本特征进行增强,得到增强的文本特征,包括: 使用文本特征ti作为查询,图像特征fi作为键和值,通过交叉注意力机制进行增强,生成带有语义引导的图像特征; 将查询、键和值分别通过多个不同的线性变换,然后分别计算多个头的注意力,并将多个头的输出结果进行拼接,得到增强图像特征Iienhanced; 所述基于原始图像的视觉特征对文本特征进行增强,得到增强的文本特征,包括: 其中,表示表示投影后的文本特征;表示表示图像特征的扁平化; 所述通过双向交叉引导将增强的文本特征引入到带有语义引导的图像特征中,得到最终增强的图像特征,包括: 增强后的文本特征Tienhanced作为查询输入,增强后的图像特征Iienhanced作为键和值,得到进一步增强图像特征Iifinal: 其中,表示增强的图像特征;表示增强的文本特征; 将增强的图像特征和原始图像特征进行拼接,然后进行2D卷积操作; 使用加权残差连接进一步优化特征表示,从而得到最终的增强特征。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人西安交通大学,其通讯地址为:710049 陕西省西安市碑林区咸宁西路28号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励