武汉理工大学陈亚雄获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉武汉理工大学申请的专利通用视觉目标定位方法、装置、电子设备及存储介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120578778B 。
龙图腾网通过国家知识产权局官网在2026-03-06发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510626223.7,技术领域涉及:G06F16/53;该发明授权通用视觉目标定位方法、装置、电子设备及存储介质是由陈亚雄;刘深亚;赵怡晨;熊盛武设计研发完成,并于2025-05-15向国家知识产权局提交的专利申请。
本通用视觉目标定位方法、装置、电子设备及存储介质在说明书摘要公布了:本发明涉及一种通用视觉目标定位方法、装置、电子设备及存储介质,属于图像识别技术领域,其中,该通用视觉目标定位方法包括:获取包含待定位目标对象的待识别图像和用于描述待定位目标对象的文本信息;采用特征提取模块提取文本信息的语言特征,并基于语言特征提取待识别图像的视觉特征;采用自适应跨模态解码模块对语言特征和视觉特征进行解码,得到待定位目标对象的目标查询特征;采用目标定位模块基于目标查询特征在待识别图像中定位待定位目标对象。本发明在提取视觉特征时,在语言信息的引导下调整特征映射,使得模型能够更灵活地提取与目标对象相关的上下文信息,视觉定位更加准确。
本发明授权通用视觉目标定位方法、装置、电子设备及存储介质在权利要求书中公布了:1.一种通用视觉目标定位方法,其特征在于,包括: 获取包含待定位目标对象的待识别图像和用于描述所述待定位目标对象的文本信息; 采用特征提取模块提取所述文本信息的语言特征,并基于所述语言特征提取所述待识别图像的视觉特征; 采用自适应跨模态解码模块对所述语言特征和所述视觉特征进行多尺度自适应解码,得到所述待定位目标对象的目标查询特征; 采用目标定位模块基于所述目标查询特征在所述待识别图像中定位所述待定位目标对象; 所述特征提取模块包括语言引导上下文编码子模块,所述采用特征提取模块提取所述文本信息的语言特征,并基于所述语言特征提取所述待识别图像的视觉特征,包括: 采用分词器将所述文本信息的分词转化为文本标记,并采用预设的第一神经网络模型提取所述文本标记中的语言特征; 采用预设的第二神经网络模型提取所述待识别图像的初级视觉特征,并采用所述语言引导上下文编码子模块基于所述语言特征和所述初级视觉特征提取含有所述待定位目标对象的上下文特征的上下文视觉特征; 采用预设的第三神经网络模型提取所述上下文视觉特征中的视觉特征; 所述自适应跨模态解码模块有N层,采用第i层自适应跨模态解码模块对所述语言特征和所述视觉特征进行多尺度自适应解码,得到所述待定位目标对象的目标查询特征,包括: 将第i-1层自适应跨模态解码模块输出的视觉特征、目标查询特征和所述语言特征作为第i层自适应跨模态解码模块的输入,对所述视觉特征进行更新,得到中间视觉特征,所述中间视觉特征的计算公式为: 其中,为中间视觉特征,、和为视觉特征通过三个全连接层分别映射得到的向量,M为待定位目标对象被选择的关注范围,为第j种被关注范围被选择的概率,为向量的通道维度; 将所述语言特征和所述中间视觉特征输入多头跨模态注意力层中融合语言信息,得到更新后的视觉特征; 将所述更新后的视觉特征和所述第i-1层自适应跨模态解码模块输出的目标查询特征输入多头跨模态注意力层中,得到中间目标查询特征; 将所述中间目标查询特征经过前馈神经网络生成第i层自适应跨模态解码模块输出的目标查询特征,其中,第N层自适应跨模态解码模块输出的目标查询特征为所述待定位目标对象的目标查询特征。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人武汉理工大学,其通讯地址为:430070 湖北省武汉市洪山区珞狮路122号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励