东南大学张涛获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉东南大学申请的专利基于Transformer的单目光流、深度和位姿无监督联合估计方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115810045B 。
龙图腾网通过国家知识产权局官网在2025-08-26发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211473988.4,技术领域涉及:G06T7/73;该发明授权基于Transformer的单目光流、深度和位姿无监督联合估计方法是由张涛;刘晓晨设计研发完成,并于2022-11-23向国家知识产权局提交的专利申请。
本基于Transformer的单目光流、深度和位姿无监督联合估计方法在说明书摘要公布了:基于Transformer的单目光流、深度和位姿无监督联合估计方法,具体来说,为降低网络参数和结构的冗余,同时考虑光流、深度和位姿无监督联合估计的任务在时序上的连续性,本发明采用具有全局感受野的Transformer作为唯一的特征编码器为三个任务同时提供统一的、具有一致性的特征描述。此外,为实现光流、深度和位姿估计之间的精度提升,考虑到联合估计任务之间的相似性。本发明在网络的训练过程中,提出了互引机制来为网络引入几何先验,实现对光流与位姿、深度的双向迭代优化。此方法可以用于以无人机、无人车或机器人等为载体的,面向单目视觉的光流、深度和位姿的联合估计任务。
本发明授权基于Transformer的单目光流、深度和位姿无监督联合估计方法在权利要求书中公布了:1.基于Transformer的单目光流、深度和位姿无监督联合估计方法,具体步骤如下,其特征在于: (1)训练阶段: 在训练阶段的数据为单目相机采集的三张连续图片帧,将其在通道维度进行拼接后直接输入到Transformer编码器对特征进行编码,为后续光流、深度和位姿的联合估计提供统一的特征表示,而后分别经过光流、深度和位姿解码器完成对特征的解码,进而完成对应信息的联合估计,在此过程中,采用改进的无监督损失函数,利用光流和深度与位姿之间的空间结构关系,使得网络实现无监督学习,并利用梯度回传对网络参数进行不断迭代,直至损失趋向最优,完成训练; 所述步骤(1)中无监督光流、深度和位姿联合估计网络的具体含义如下: 包括以下两个方面; (1)基于Transformer的统一特征提取器, 用一个Transformer作为三个任务的统一编码器,仅用一次统一的特征提取即可完成三个任务对于不同特征的需求,同时,光流、深度和位姿估计任务在三维结构上具有强的几何一致性,网络由Transformer编码器和光流、深度与位姿解码器分支组成,各个网络结构关系如下; (1) (2) (3) (4) 其中,代表Transformer统一特征提取器,代表三张时间连续的输入图像帧,代表Transformer提取的统一特征,表示光流解码器分支网络估计出的两组光流,代表由深度解码器分支网络估计出的一张深度图,则为位姿解码器分支网络估计的两组位姿; (2)基于互引机制的光流与深度、位姿的迭代优化方法; 通过引入互引机制来为网络引入几何先验,实现光流与位姿、深度的双向迭代优化,具体来说,为使光流与深度、位姿的估计精度能够实现相互促进,利用光流分支作为深度和位姿分支的指导器,令其在光流的角度指导深度和位姿生成,同时,深度和位姿分支亦作为光流分支的指导器,使其在深度和位姿估计的角度指导光流的生成,以此种互引机制来使得光流与深度、位姿估计相互促进; (2)预测阶段: 当网络完成训练后,固定网络参数,输入三帧测试集上连续的单目图像,经过Transformer编码器对特征的统一提取与编码后,输入给各个解码器分支,即可同时完成单目光流、深度和位姿的估计,同时,三个任务在预测阶段亦可独立实现预测,互不干扰。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人东南大学,其通讯地址为:210096 江苏省南京市玄武区四牌楼2号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。