西北大学赵国英获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉西北大学申请的专利一种基于Transformer的6D姿态估计方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115331301B 。
龙图腾网通过国家知识产权局官网在2025-10-28发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210759936.7,技术领域涉及:G06V40/20;该发明授权一种基于Transformer的6D姿态估计方法是由赵国英;姜媛;赵万青;张少博;彭先霖;李斌;汪霖;王珺;彭进业设计研发完成,并于2022-06-29向国家知识产权局提交的专利申请。
本一种基于Transformer的6D姿态估计方法在说明书摘要公布了:本发明涉及一种基于Transformer的6D姿态估计方法,采用包括基于Transformer的物体二维关键点特征提取模块,关键点结构建模模块以及姿态推理模块的姿态估计网络,使用PnP算法从二维关键点和目标物体三维关键点之间的对应关系计算6D姿态;基于Transformer的物体二维关键点特征提取模块用于提取目标物体在RGB图片上的二维关键点特征;关键点结构建模模块使用self‑attention对提取的关键点特征进行结构关系以及上下文信息的学习并预测关键点坐标;姿态推理模块将预测到的二维关键点与目标物体的三维关键点使用pnp算法来计算目标物体的姿态;利用transformer结构的优越性以及高效性实现了纯transformer结构的姿态估计网络,充分利用关键点结构的几何不变性提升6D姿态估计的精度,准确性超过基于cnn的姿态估计网络。
本发明授权一种基于Transformer的6D姿态估计方法在权利要求书中公布了:1.一种基于Transformer的6D姿态估计方法,其特征在于,该方法采用包括基于Transformer的物体二维关键点特征提取模块,关键点结构建模模块以及姿态推理模块的姿态估计网络,使用PnP算法从二维关键点和目标物体三维关键点之间的对应关系计算6D姿态;其中: 所述基于Transformer的物体二维关键点特征提取模块用于提取目标物体在RGB图片上的二维关键点特征;对于输入的目标物体图像,二维关键点特征提取模块会输出一组关键点特征向量,表示从图像中提取的八个关键点特征; 所述关键点结构建模模块包括自注意层与多层感知机层;其中,自注意层对预测的关键点特征进行结构关系以及上下文信息的学习,多层感知机层将关系建模后的特征向量预测为图像上的二维坐标点,二维坐标点也称二维关键点; 所述姿态推理模块是将预测到的图像二维关键点与目标物体的三维关键点使用pip算法来计算目标物体的姿态,输出为旋转矩阵与平移矩阵; 所述的基于Transformer的关键点特征提取模块的构建还包括图像序列化以及二维关键点特征提取,具体的构建方法为: 1将输入的二维图像进行序列化:将图片处理为一系列扁平的2D图像块其中,H,W是输入图像的分辨率,C是输入通道的数量,P,P是每个图像块的分辨率,是得到的图像块数量,接着用一个可训练的线性投影将xPATCH映射到D维,将此投影的输出称为patchembedding; 2对patchembedding添加位置信息,即对序列块添加位置编码P,并将得到的序列Z作为图像特征序列: 其中,是得到的图像块数量; 3预定义J个可学习d维关键点嵌入向量keypoints,在训练开始前,对这J个可学习d维关键点嵌入向量keypoints进行随机初始化,J表示关键点数量; 4将得到的图像特征序列Z与关键点嵌入向量keypoints作为输入,送入Transformer编码器中,以此来学习图像块之间的关系并让图像特征序列Z与关键点嵌入向量keypoints在Transformer编码器中执行全局交互;每个Transformer编码器层由一个multi-headself-attentionMSA块和一个MLP块组成;在每个块之前应用LayerNormLN,并且在每个块之后应用残差连接;MLP包含一个具有中间GELU非线性激活函数的隐藏层;最终,Transformer编码器输出与图像交互后的关键点特征,并送入关键点结构建模模块; 所述的关键点结构建模模块具体的构建方法为: 1将基于Transformer的关键点特征提取模块中提取出的关键点特征送入self-attention模块中,进行关键点特征间关联性的交互学习;在self-attention模块中,对输入的特征序列利用注意力机制整合关键点之间的结构关系,自注意机制实际上就是额外增加一些可学习的参数,推理过程中通过这些参数得到一系列注意力权重来模拟关键点之间关联性的强弱从而达到对物体关键点结构关系的学习; 2在self-attention中,每个关键点特征会产生3个不同的向量,它们分别是Query向量Q,Key向量K和Value向量V,它们是由嵌入向量X乘以三个不同的权值矩阵WQ,WK,WV得到;接着使用Query向量Q与Key向量K相乘为每个关键点向量计算一个得分,对得分施加Softmax激活函数,这个Softmax分数决定了每个关键点对编码当下位置的“贡献”,已经在这个位置上的关键点将获得最高的Softmax分数,然后将结果与Value向量V相乘得到输出向量; 3将输出向量送入多层感知器中来进行密集预测,回归关键点坐标;关键点坐标回归头由八个带有单独参数的MLP实现;使用MLP来生成热力图,并使用softmax函数将热图转换为概率分布图,从而获得关键点坐标; 4随后,将预测的关键点与真实的关键点坐标计算距离,损失定义如下: 式中,N是关键点的个数,是关键点的预测坐标,是关键点的真实坐标; smoothL1定义如下: 式中,|x|表示关键点预测坐标与关键点真实值之间的绝对距离。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人西北大学,其通讯地址为:710069 陕西省西安市太白北路229号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励