江汉大学;武汉神思科学发展中心桑鸿乾获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉江汉大学;武汉神思科学发展中心申请的专利增强多模态大模型空间感知能力的方法及装置获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120339399B 。
龙图腾网通过国家知识产权局官网在2025-08-26发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510792038.5,技术领域涉及:G06T7/73;该发明授权增强多模态大模型空间感知能力的方法及装置是由桑鸿乾;刘帅帅;徐璐;李涛;叶立恒;何宇鹏;文佳怡设计研发完成,并于2025-06-13向国家知识产权局提交的专利申请。
本增强多模态大模型空间感知能力的方法及装置在说明书摘要公布了:本申请涉及计算机视觉技术领域,特别涉及一种增强多模态大模型空间感知能力的方法及装置,其中,方法包括:利用多模态大模型提取目标图像和或目标视频中至少一个物体的特征描述信息并生成初始结构化数据;对目标图像和或目标视频进行网格化处理,并在网格中添加包含位置信息的视觉提示,结合视觉提示和初始结构化数据生成包含坐标信息和描述信息的结构化数据;基于结构化数据,定位至少一个物体对应的目标区域并优化空间坐标,以得到至少一个物体的实际物体坐标;将其映射回目标图像和或目标视频的系统坐标,得到至少一个物体在空间中的实际定位结果。本申请可以显著提升多模态大模型的空间感知能力与动态场景适应能力,具有广泛应用场景。
本发明授权增强多模态大模型空间感知能力的方法及装置在权利要求书中公布了:1.一种增强多模态大模型空间感知能力的方法,其特征在于,包括以下步骤: 利用多模态大模型提取目标图像和或目标视频中至少一个物体的特征描述信息,并根据所述特征描述信息生成所述至少一个物体的初始结构化数据; 对所述目标图像和或所述目标视频进行网格化处理,并在所述目标图像和或所述目标视频的多个网格中添加包含位置信息的视觉提示,以结合所述视觉提示和所述初始结构化数据生成包含所述至少一个物体的坐标信息和描述信息的结构化数据; 基于所述结构化数据,在所述目标图像和或所述目标视频中定位所述至少一个物体对应的目标区域,并通过所述目标区域优化所述坐标信息,以得到所述至少一个物体的实际物体坐标; 将所述实际物体坐标映射回所述目标图像和或所述目标视频的系统坐标,以得到所述至少一个物体在空间中的实际定位结果。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人江汉大学;武汉神思科学发展中心,其通讯地址为:430056 湖北省武汉市经济技术开发区三角湖路8号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。