Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 大连理工大学;西安现代控制技术研究所王栋获国家专利权

大连理工大学;西安现代控制技术研究所王栋获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉大连理工大学;西安现代控制技术研究所申请的专利一种基于模态统一表示的多模态统一目标跟踪方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119672071B

龙图腾网通过国家知识产权局官网在2025-06-10发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510193101.3,技术领域涉及:G06T7/246;该发明授权一种基于模态统一表示的多模态统一目标跟踪方法是由王栋;常冠男;卢湖川;陈鑫;刘洋;刘镇涛;赵洁设计研发完成,并于2025-02-21向国家知识产权局提交的专利申请。

一种基于模态统一表示的多模态统一目标跟踪方法在说明书摘要公布了:本发明属于机器学习、计算机视觉、目标跟踪领域,公开了一种基于模态统一表示的多模态统一目标跟踪方法。通过一个多模态嵌入层,将可见光、深度、红外、事件、自然语言模态表示为统一的标记形式,使得训练一个Transformer模型对多种模态的联合特征提取与融合成为可能,从而开发可处理不同的多模态输入信号的目标跟踪模型。此外,本方法中引入任务识别训练策略以增强模型分辨不同模态跟踪任务的能力,提出软标记类型嵌入提供给模型精确的标记类型信息,进一步提升该多模态统一模型性能表现。最终,本方法通过统一的方案解决了不同的多模态跟踪任务,实现了不同任务间的架构统一、模型统一、知识共享,在五种多模态跟踪任务上取得良好的跟踪性能。

本发明授权一种基于模态统一表示的多模态统一目标跟踪方法在权利要求书中公布了:1.一种基于模态统一表示的多模态统一目标跟踪方法,其特征在于,步骤如下:步骤1:从公开数据集获取多模态目标跟踪任务的视频用于多模态目标跟踪模型训练,多模态目标跟踪任务的视频包含可见光、可见光-深度、可见光-红外、可见光-事件、可见光-自然语言五种模态;其中深度、红外、事件、自然语言模态与可见光模态是配对的,深度、红外、事件模态以三通道图像的形式进行储存;在多模态目标跟踪任务的视频中随机采集图像帧,将图像帧上标注的感兴趣目标的边界框分别扩大2倍和4倍来生成模板图像和搜索区域图像的样本对,并采用亮度变换、反转进行增广;步骤2:将每个多模态目标跟踪任务的不同模态的输入信号转换为统一的标记嵌入的形式;1对于可见光-深度目标跟踪任务、可见光-红外目标跟踪任务和可见光-事件目标跟踪任务,将深度、红外、事件模态统称为辅助模态数据,标记为DTE;将可见光模态数据标记为RGB;将可见光模态数据与辅助模态数据进行通道方向拼接后,使用多模态嵌入层共同进行标记嵌入的转换,使得可见光模态数据与辅助模态数据被转换为统一的标记嵌入表示;将图像IRGB∈RH×W×3和图像IDTE∈RH×W×3沿通道方向进行拼接,得到拼接图像Iconcat∈RH×W×6,见下式: 接下来,拼接图像Iconcat被划分为固定大小的图像块,每个图像块的尺寸为P×P×6;然后,每个P×P×6的图像块被展平为一个长度为6P2的一维向量;最后,应用线性变换将展平的图像块向量映射到嵌入空间,见下式:Ei=WpPi+bp其中,Ei表示第i个图像块的嵌入向量,其维度为D;Pi表示第i个图像块的展平向量,Wp为维度为D×6P2的权重矩阵,bp为维度为D的偏置项;2对于不包含DTE数据的目标跟踪任务,通过复制RGB数据的三个通道来创建一个六通道输入,然后使用多模态嵌入层进行处理,得到多模态嵌入;在可见光-自然语言目标跟踪任务中,对于自然语言模态,使用一个语言模型作为文本编码器提取出一个语言特征嵌入;其中,语言模型为CLIP-L模型,在其上添加一个线性层来调整维度;该语言特征嵌入随后与多模态嵌入进行拼接,并输入到Transformer编码器中;3对于不包含语言模态的目标跟踪任务,用一句固定的语句进行填充;通过以上方式,获得多模态的搜索区域、模板、文本描述的统一标记嵌入;这些统一标记嵌入在空间维度被拼接后直接被送入一个Transformer编码器中;Transformer编码器内部通过注意力机制完成对这些统一标记嵌入的联合特征提取与融合;步骤3:向获得的统一标记嵌入中添加软标记类型编码,模板图像的前景标记与背景标记通过给定的边界框B来区分,具体如下:给定一个包含目标的模板图像及其边界框B,包含目标的模板图像为步骤1获得的模板图像经过步骤2的通道方向拼接后的结果;首先创建一个与模板图像尺寸相同的掩码M∈RH×W,在这个掩码中,边界框内的像素被赋值为1,边界框外的像素则赋值为0: 接下来,将掩码M划分为大小为P×P的不重叠的图像块;第k个图像块记为然后,对于每个图像块中的数值,计算平均值: 其中,为第k个图像块的平均值;每种标记类型都对应一个可学习的标记类型嵌入,包含模板图像的前景标记类型嵌入Efg、模板背景标记类型嵌入Ebg和搜索区域图像的标记类型嵌入Esearch,这些标记类型嵌入在训练阶段进行学习,在推理阶段固定;对于模板图像第k个图像块嵌入,进行如下调整: 其中,表示第k个图像块的调整嵌入,Ek表示原始的多模态图像块嵌入;对于搜索区域图像,仅将搜索区域标记类型嵌入Esearch添加到每个图像块嵌入中,不再区分前景与背景: 步骤4:利用上述的多模态标记嵌入,训练多模态目标跟踪模型;多模态目标跟踪模型由Transformer编码器和跟踪头部预测网络构成;Transformer编码器用于对输入的多模态的搜索区域图像、模板图像的特征提取与融合,采用HiViT结构;跟踪头部预测网络用于在Transformer编码器输出的特征上进行跟踪结果的预测,采用OSTrack的头部网络结构;为了训练多模态目标跟踪模型,采用以下训练与优化策略:采取多任务数据混合训练方法,首先将Transformer编码器输出的所有特征嵌入进行取平均计算,生成一个单一的特征向量Eavg;该特征向量的计算公式为: 其中,N表示输出的特征嵌入的数量,表示第i个输出的特征嵌入;接下来,跟踪模型将该特征向量输入到一个多层感知机中,进行任务分类;分类的任务包括五种类型可见光目标跟踪任务、可见光-深度目标跟踪任务、可见光-红外目标跟踪任务、可见光-事件目标跟踪任务以及可见光-自然语言目标跟踪任务;任务分类的公式为:ytask=MLPEavg其中,MLP·表示多层感知机;ytask是一个任务概率分布;之后,利用交叉熵损失函数来计算多模态目标跟踪模型的预测结果与真实任务标签之间的差距;交叉熵损失函数的表达式为: 其中,K表示任务的数量,K=5;是任务j的真实标签,是多模态目标跟踪模型预测的当前数据属于任务j的概率;多模态目标跟踪模型训练的损失函数为: 其中,表示用于前景背景分类的加权焦点损失,代表广义交并比损失,是l1范数损失,则是用于任务识别的交叉熵损失;λG=2,步骤5:在推理阶段,采用多模板策略;使用两个模板:一个是静态的初始模板,另一个是在跟踪过程中动态更新的模板;模板更新机制基于固定的时间间隔和置信度阈值来决定何时进行更新。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人大连理工大学;西安现代控制技术研究所,其通讯地址为:116024 辽宁省大连市甘井子区凌工路2号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由AI智能生成
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。