大连理工大学;河南省水利勘测设计研究有限公司赵洁获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉大连理工大学;河南省水利勘测设计研究有限公司申请的专利自适应视觉-语言匹配检测与跟踪方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120563868B 。
龙图腾网通过国家知识产权局官网在2025-09-23发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511047813.0,技术领域涉及:G06V10/75;该发明授权自适应视觉-语言匹配检测与跟踪方法是由赵洁;高英;王新平;王栋;刘洋设计研发完成,并于2025-07-29向国家知识产权局提交的专利申请。
本自适应视觉-语言匹配检测与跟踪方法在说明书摘要公布了:本发明属于计算机视觉、视觉‑语言匹配检测、多模态目标跟踪领域,公开了一种自适应视觉‑语言匹配检测与跟踪方法。首先利用预训练多模态大模型的模态对齐与表征优势,构建视觉‑语言多模态跟踪大模型;并提出视觉上下文感知提示学习算法,从当前搜索特征中提取视觉上下文特征,采用提示学习将其融入文本编码过程,实现文本特征对视觉变化的动态感知;此外,设计语言自适应隐式更新机制,通过在文本编码过程中嵌入可学习向量,并结合动态的视觉上下文线索,实现在跟踪过程中对文本特征的隐式更新,使静态语言能够动态匹配视觉外观,从而提升视觉‑语言检测跟踪性能。
本发明授权自适应视觉-语言匹配检测与跟踪方法在权利要求书中公布了:1.一种自适应视觉-语言匹配检测与跟踪方法,其特征在于,步骤如下: 步骤1:构建视觉-语言多模态跟踪大模型; 视觉-语言多模态跟踪大模型,包括图像分支、文本分支、关联模型和跟踪模块;图像分支和文本分支分别用于处理图像与文本输入;图像分支包括图像编码器,模板图像与搜索图像通过图像编码器进行图像编码,得到模板特征和搜索特征;文本分支包含上下文提示器和文本编码器,先通过CLIP预训练模型的分词模块将语言指令的每个单词编码为文本词向量后,再通过上下文提示器将搜索特征作为提示融合至文本词向量中,融合后的文本词向量通过文本编码器提取文本特征;再将获取的模板特征、搜索特征与文本特征共同输入关联模型进行多模态的注意力交互融合,得到融合后的模板特征、搜索特征与文本特征;最后,将融合后的搜索特征输入跟踪模块进行跟踪预测; 视觉-语言多模态跟踪大模型的整体流程表示如下: ; ; ; ; 其中,和分别表示模板图像与当前第t帧搜索图像;表示语言指令;和表示由图像编码器提取的模板图像与当前第t帧搜索图像对应的模板特征与搜索特征;为图像编码器的对应参数;表示由文本编码器提取的对应文本特征;为文本编码器的对应参数;表示参数为的上下文提示器;表示个数为的预定义可学习词向量;表示关联模型;表示跟踪模块;与分别为关联模块和跟踪模块的对应参数; 经过视觉上下文特征增强的融合后的文本词向量,随后通过文本编码器编码为文本特征; 步骤2:基于提示学习的训练过程; 采用CLIP预训练模型作为文本编码器,图像编码器与关联模型采用使用CLIP监督训练的Fast-iTPN预训练模型进行初始化; 冻结文本编码器的参数,上下文提示器通过提示学习调整其参数;仅通过更新可学习向量的参数与上下文提示器的上下文网络实现对文本编码的优化; 步骤3:文本自适应隐式更新的推理过程; 在跟踪推理阶段,通过步骤2训练后的上下文提示器,在每一帧的跟踪过程中,提取当前帧的视觉上下文特征,并通过可学习向量插入至文本词向量序列中,实现对文本特征的自适应隐式更新。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人大连理工大学;河南省水利勘测设计研究有限公司,其通讯地址为:116024 辽宁省大连市甘井子区凌工路2号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。