西北工业大学王鹏获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉西北工业大学申请的专利基于多尺度跨模态特征融合的指代表达理解方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115496991B 。
龙图腾网通过国家知识产权局官网在2025-08-15发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211009462.0,技术领域涉及:G06V10/86;该发明授权基于多尺度跨模态特征融合的指代表达理解方法是由王鹏;孙梦阳;张艳宁;索伟设计研发完成,并于2022-08-22向国家知识产权局提交的专利申请。
本基于多尺度跨模态特征融合的指代表达理解方法在说明书摘要公布了:本发明涉及一种基于多尺度跨模态特征融合的指代表达理解方法,基于语言图像多模态融合领域。在跨模态特征融合过程中结合了线性特征调制和视觉引导语言注意力模块进行特征融合,同时该模型利用了语言进行选择和筛选多尺度网格级特征,从低级和高级融合特征中自适应地选择关键线索,并通过动态路由在跨尺度信息之间建立关系。实验结果表明,新的模型架构在多个基准测试中达到了新的最先进水平,并为REC研究提供了新的见解和方向。
本发明授权基于多尺度跨模态特征融合的指代表达理解方法在权利要求书中公布了:1.一种基于多尺度跨模态特征融合的指代表达理解方法,其特征在于步骤如下: 步骤1:图片首先调整为相同的大小,然后经过Resnet-101提取出n个尺度的特征图,再通过1×1卷积映射到相同的维度d得到针对语言信息,先将语言信息分解为词,通过词嵌入后得到各个词对应的特征向量,规定最长的语句词数为T,词数不足T的语句空白处用PAD标识填充;语句开始位置添加CLS标识,语句结尾添加SEP标识;将经过位置编码后的词向量输入进BERT网络,得到融合语句信息的各个词汇的特征向量 步骤2:将E和V输入到模型的跨模态交互注意力模块中,该模块由两部分组成,线性特征调制模块FiLM和视觉引导的语言注意力模块;在FiLM模块中,应用了基于特征的仿射变换来自适应地影响网络的输出,对于给定的语言特征先通过平均策略获得整个表达式EF,之后具体通过: 其中和是两个具有激活函数Tanh的多层感知器MLP的权重和偏差,对于公式3,⊙和⊕分别表示按元素逐位乘法和加法;最后,应用标准的3×3卷积和ReLU操作来产生多级融合特征 对于视觉引导语言注意力模块,首先将视觉特征Vi展平为其中Ni=Hi×Wi是视觉标记的特征个数,然后根据语言特征E和视觉特征Zi由下式计算: 其中和是嵌入矩阵,该注意力模块中的查询、键和值分别用Q、K和V表示;m是注意力头的数量,d为特征维度,为了简单起见,只为每一级视觉特征使用一个语言注意力模块;之后,Ai由两个带有残差连接的前馈网络FFN进一步编码,形成融合后的输出 通过连接Ff和Ft得到Fft,然后使用三个1×1卷积层将Fft映射到维度d;最后,得到组合的特征 步骤3:构建语言引导的特征金字塔模块FPN 首先构建了一个深度为K的路由空间,在这个路由空间中,相邻阶段之间的比例因子被限制为2;对于每个路由节点,输入由两部分组成:多级特征图和基于注意力机制的语言向量;每个路由节点中的每个尺度的网格级特征由语言门硬选择; 首先,经过语言门的输入由两部分组成:多级特征图和基于注意力机制的语言向量;基于注意力机制的语言向量以下公式得到: ak=softmaxEWk5 其中Wk∈R256×1是学习权重,k表示深度,将共享给每个尺度和网格特征;多尺度特征图可以表示为其中i是第i个尺度,k是第k层,N=Hi×Wi;语言门通过语言向量动态选择中的网格级特征,具体操作如下: *和·分别表示卷积运算和Hadamard乘积;conv·表示一个3×3卷积网络,σ·是激活函数;这里使用tanh,即max0,tahn·作为门开关;当输入为负时,该函数的输出始终为0,这使得在推理阶段不需要额外的阈值; 之后,将输出Yi,k按照从小尺度到大尺度分别进行上采样、保持不变和下采样操作;具体操作如下: 使用来表示路由节点I中的聚合输出,中的细粒度特征由联合门进一步细化,具体地,将通过以下方式计算: 其中conv是一个1×1的卷积网络,它将输入特征映射到一个通道中,l表示第l的节点;最后一层的节点将用作多尺度融合,融合方式如下: 公式11将不同节点的信息汇总起来得到FAVG,它将用作检测头的输入; 步骤4:使用无锚检测头来定位目标 对于步骤3的输出FAVG,首先使用一个1×1的卷积层得到一个形状为w×h×5的特征图,表示五个预测值{tx,ty,tw,tht},其中前两个值表示中心偏移,tw和th分别表示归一化的宽度和高度;最后一个t是置信度分数,表示该位置是否存在对象的中心点;最后,在中心点t上应用交叉熵损失Lcls,在中心偏移、宽度和高度上应用MSE损失Loff;同时,使用GIoU损失作为辅助损失;最后将整个函数定义为: Loff=Δx-tx2+Δy-ty214 Cij=1or0表示当前格子中是否含有真值目标的中心点, 表示中心点对于该格中心的偏移,其中x、y分别指int·表示该操作将分数舍入到最接近的整数;只对真值中心所在的格子进行Loff;总损失函数如下: Loss=Lcls+λoFFLoff+Lgiou15 其中,λoff设置成5,网络选择最高分的中心点来生成边界框;IoU是REC中使用的度量标准,用于衡量预测与真实情况之间的重叠程度。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人西北工业大学,其通讯地址为:710072 陕西省西安市友谊西路;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。