Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 积分商城 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 华南理工大学徐雪妙获国家专利权

华南理工大学徐雪妙获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉华南理工大学申请的专利一种基于视角信息和关系解耦的3D视觉物体定位方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120125655B

龙图腾网通过国家知识产权局官网在2025-12-19发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510082319.1,技术领域涉及:G06T7/73;该发明授权一种基于视角信息和关系解耦的3D视觉物体定位方法是由徐雪妙;黄荣刚设计研发完成,并于2025-01-20向国家知识产权局提交的专利申请。

一种基于视角信息和关系解耦的3D视觉物体定位方法在说明书摘要公布了:本发明公开了一种基于视角信息和关系解耦的3D视觉物体定位方法,包括:获取多模态数据并进行预处理得到3D场景点云数据和文本;设计一个简单关系解耦模块,对预处理后的文本进行空间关系解耦,得到多组简化空间描述;对3D场景点云数据进行特征提取得到3D物体特征,将多组简化空间描述转化为多组空间描述特征;设计一种视角信息传递模块,将可学习的多视角标记与空间描述特征结合;设计一个跨模态解码器,处理带视角信息的空间描述特征和3D物体特征,生成用于预测的融合特征;将融合特征经过分类头进行分类预测,计算出场景中每个物体的概率,并选择最大概率的物体作为最终的定位结果。本发明可提高3D视觉物体定位的准确性和鲁棒性。

本发明授权一种基于视角信息和关系解耦的3D视觉物体定位方法在权利要求书中公布了:1.一种基于视角信息和关系解耦的3D视觉物体定位方法,其特征在于,包括以下步骤: S1:获取多模态数据,并对数据进行预处理得到统一大小的3D场景点云数据和去除标点的文本; S2:设计了一个简单关系解耦模块,该简单关系解耦模块对预处理后的文本进行空间关系解耦,依据文本中存在的空间位置关系词,借助大语言模型的理解能力,将原本成分复杂的文本转化为锚点-关系-目标的多组简化空间描述; S3:对经过预处理后的3D场景点云数据进行特征提取,从3D场景点云中获取多个点云物体并通过3D物体编码器进行特征提取得到3D物体特征,同时将多组简化空间描述通过文本编码器转化为多组空间描述特征; S4:设计了一种视角信息传递模块,该视角信息传递模块利用交叉注意力机制将可学习的多视角标记与空间描述特征结合,同时将对应的视角标记传递给相应视角下的3D物体特征中,根据视角标记的可学习的特点,该视角信息传递模块能够理解空间描述特征之间的关系,从而增强对3D物体特征的不同视角的信息,更好地对齐跨模态的视角信息; 为了引入视角信息,设计了一个可训练的视角标记其中表示视角标记是一个实数矩阵,Nview代表视角数量,dinner表示每个视角标记的隐藏层维数,对于3D物体特征Fobj,该视角标记进行扩展,使其矩阵被扩展为将对应视角的物体特征和视角标记沿标记数量维度进行拼接,最终得到一个形状为的组合特征,其中Nobj表示场景点云中具有的物体数量,以此确保每个对应视角下的空间描述特征都与各个视角下的3D物体特征一一对齐,具体拼接操作后得到带视角信息的物体特征Zobj表示为: Zobj=concatFobj,Tvn 为了能将视角信息引入到空间描述特征中,设计了一种基于交叉注意力机制即Cross-Attention模型的多模态特征融合方法,首先,初始化一个Cross-Attention模型,该Cross-Attention模型具有隐藏层维数为dinner,k个注意力头,表示为: Cross-Attentiondmodel=dinner,Nheads=k 式中,dmodel表示隐藏层的维度,即表示模型内部每层的向量大小;Nheads表示注意力头数,机制中每个头会分别计算注意力,然后将结果拼接在一起,从而捕捉更多的特征;在这个机制中,首先将空间描述特征通过一个线性变换得到查询向量Q,这些查询向量用于与其它信息进行匹配,在Cross-Attention模型中,Q由空间描述特征Ftext通过线性变换矩阵WQ得到: Q=FtextWQ 接着,视角标记被分别映射到键向量K和值向量V,即分别通过线性变换矩阵WK和WV计算得到: K=TviewWK,V=TviewWV 在这个机制中,Q代表了空间描述特征在高维度空间的表示,而K则表示视角信息的内容,V则包含了与K相关联的信息;然后,通过计算Q与K之间的相似度,得到注意力得分,并通过softmax标准化得到注意力矩阵A;Q和K的点积结果经过缩放后,计算出每个物体特征与视角信息之间的注意力权重: 最后,注意力矩阵A被用来加权值向量V,得到将视角标记融合的空间描述特征Ztext: Ztext=AV S5:设计了一个跨模态解码器,该跨模态解码器基于自注意力机制和交叉注意力机制来处理带视角信息的空间描述特征和3D物体特征,通过将强化了视角信息的3D物体特征作为查询,利用自注意力机制分配自注意力权重,然后将空间描述特征作为键和值,使用交叉注意力机制将空间描述特征和3D物体特征这两种模态特征进行融合,根据物体特征与描述特征的关系动态调整注意力权重,从而优化视角标记对空间描述特征和3D物体特征彼此之间的影响,加强多模态信息交互,最终生成用于预测的融合特征; S6:将得到的融合特征经过分类头进行分类预测,从而计算出场景中每个物体的概率,并选择最大概率的物体作为最终的定位结果。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人华南理工大学,其通讯地址为:510640 广东省广州市天河区五山路381号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。