哈尔滨工业大学马丁获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉哈尔滨工业大学申请的专利基于自然语言描述和协同全局-局部视角学习的目标追踪方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119559548B 。
龙图腾网通过国家知识产权局官网在2025-11-11发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411605976.1,技术领域涉及:G06V20/40;该发明授权基于自然语言描述和协同全局-局部视角学习的目标追踪方法是由马丁;邬向前;卜巍设计研发完成,并于2024-11-12向国家知识产权局提交的专利申请。
本基于自然语言描述和协同全局-局部视角学习的目标追踪方法在说明书摘要公布了:本发明公开了一种基于自然语言描述和协同全局‑局部视角学习的目标追踪方法,所述方法包括如下步骤:步骤1、输入视频帧的特征提取与初步处理;步骤2、全局和局部分支视觉特征的提取;步骤3、多模态特征对齐实现信息互补和一致性表达;步骤4、对称注意力操作选择重要信息;步骤5、通过预测模块估计目标的位置;步骤6、追踪模型优化。本发明通过全局与局部特征的协同建模、多模态对齐机制以及对称注意力的特征增强,显著提升了目标追踪的精度和鲁棒性,解决了现有技术中全局与局部信息融合不充分、视觉与语言特征对齐能力不足的问题。本发明能够在复杂场景和自然语言描述的条件下精准定位目标,并在多个具有自然语言标注的目标追踪数据集上展现了卓越的性能。
本发明授权基于自然语言描述和协同全局-局部视角学习的目标追踪方法在权利要求书中公布了:1.一种基于自然语言描述和协同全局-局部视角学习的目标追踪方法,其特征在于所述方法包括如下步骤: 步骤1、输入视频帧的特征提取与初步处理: 给定输入帧,通过视觉编码器对输入帧进行深度特征提取,生成初始特征图,其中和W分别表示输入帧的高度和宽度,和分别为初始特征图的高度和宽度,为通道数; 步骤2、全局和局部分支视觉特征的提取: 步骤2.1、全局特征分支的特征提取: 步骤2.1.1、对于输入的全局特征,首先将其划分为多个扩展分区,划分过程中,每个分区通过稀疏采样形成非连续区域,区域大小表示为,且,划分后的特征表示为: ,其中表示全局特征图中位置i,j的全局token,和分别为全局特征图的高度和宽度; 步骤2.1.2、每个分区通过提供查询嵌入、键嵌入和值嵌入计算自注意力,得到全局token; 步骤2.2、局部特征分支的特征提取: 局部特征分支通过深度卷积传递全局特征分支的值嵌入,生成查询嵌入、键嵌入和值嵌入,并通过自注意力收集本地信息,得到局部token,该自注意力计算过程与全局特征中使用的自注意计算过程一致; 步骤3、多模态特征对齐实现信息互补和一致性表达: 步骤3.1、语言特征的生成与预处理: 为了将自然语言描述与视觉特征对齐,通过文本编码器对输入的自然语言描述进行处理,生成语言tokens; 步骤3.2、交叉注意力层的多模态信息融合: 在多模态对齐过程中,将视觉特征中的全局和局部tokens分别作为键嵌入和值嵌入,语言特征作为查询嵌入,通过交叉注意力机制完成多模态信息的融合; 步骤3.3、自注意力层的多模态特征优化: 通过交叉注意力机制生成的多模态对齐特征进入自注意力层,以进一步优化其表达能力,最终生成包含了全局和局部视觉信息,以及自然语言描述的语义信息的全局-文本特征和局部-文本特征; 步骤4、对称注意力操作选择重要信息: 步骤4.1、通道自注意力操作: 步骤4.1.1、对于全局-文本特征,通过线性投影生成查询嵌入、键嵌入和值嵌入: , 其中,,,分别表示查询嵌入、键嵌入以及值嵌入的投影矩阵; 步骤4.1.2、在通道维度上执行注意力计算,公式如下: , 其中,是可学习的温度参数,用于调整注意力分布的范围; 步骤4.2、空间窗口自注意力操作: 步骤4.2.1、对于局部-文本特征,通过线性投影生成查询嵌入、键嵌入和值嵌入: , 步骤4.2.2、将局部特征划分为多个非重叠的窗口,每个窗口包含像素点,在每个窗口内计算注意力,公式如下: , 其中,是缩放参数,表示相对位置编码,用于增强窗口内的空间关系; 步骤4.3、采用像素级相关性计算过程,将全局和局部特征融合为联合特征; 步骤5、通过预测模块估计目标的位置: 步骤5.1、步骤2至步骤4视为一个阶段,为了充分提取全局和局部特征,共执行四个阶段得到最终特征用于结果预测; 步骤5.2、预测模块包含两个预测头,一个用于估计前景或背景的概率,另一个用于回归目标的边界框,这两个预测头分别处理联合特征,目标分类由分类头完成,边界框回归由回归头完成: , 其中,是用于分类的前馈神经网络,输出一个二维向量,对应于该位置的前景和背景分数,是用于回归的前馈神经网络,输出一个四维向量,表示从当前位置到边界框四个边的距离最终,边界框的预测过程为:利用分类得分选择前景概率最高的位置作为目标中心点,同时结合回归结果生成最终的边界框; 步骤6、追踪模型优化: 追踪模型由4个阶段的全局-局部模块以及预测模块两部分构成,通过对全局-局部增强特征进行分类和回归的损失计算来优化模型,模型优化目标包括二元交叉熵损失和广义IoU损失,分类任务的损失使用二元交叉熵来计算,回归任务则采用广义IoU损失,总损失函数表示为: 。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人哈尔滨工业大学,其通讯地址为:150001 黑龙江省哈尔滨市南岗区西大直街92号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励