电子科技大学邱荷茜获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉电子科技大学申请的专利一种基于跨模态眼动注意力感知的复杂场景指示表达理解方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119810899B 。
龙图腾网通过国家知识产权局官网在2025-10-24发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411864237.4,技术领域涉及:G06V40/18;该发明授权一种基于跨模态眼动注意力感知的复杂场景指示表达理解方法是由邱荷茜;李宏亮;王岚晓;陈新宇;张瀚文;赵泰锦;齐成浩;程少翀;代瑞松设计研发完成,并于2024-12-18向国家知识产权局提交的专利申请。
本一种基于跨模态眼动注意力感知的复杂场景指示表达理解方法在说明书摘要公布了:本发明公开了一种基于跨模态眼动注意力感知的复杂场景指示表达理解方法,属于计算机视觉、机器学习、多模态理解领域。本发明通过设计语言感知的动态可变形注意力机制,利用人眼注视谱作为监督信息,根据语言特征自适应地捕获相应的视觉区域,同时设计眼动谱驱动的Transformer解码器,通过逐步融合视觉特征表示,推理出语言指示的目标区域位置,从而显示地模拟人眼视觉注意力感知区域以及转移过程,有效提升复杂场景指示表达理解精度。
本发明授权一种基于跨模态眼动注意力感知的复杂场景指示表达理解方法在权利要求书中公布了:1.一种基于跨模态眼动注意力感知的复杂场景指示表达理解方法,该方法包括: 步骤1:构建人眼注视谱数据库; 利用桌面眼动仪采集受试者的眼动记录;记录受试者对图像内容的注视位置以及停留时间变化信息;为了保证注视数据的质量,每对语言-图像将会采集到多名受试者的眼动注视信息; 然后对采集的数据进行聚类融合,降低异常值的影响和确保注视信息的可靠性; 步骤2:提取指示语言的语言特征; 首先将输入指示语言分割成单词序列,然后利用TokenEmbedding层,将每个单词编码到高维向量空间,最后将编码后的语言序列输入到Bert模型中,提取输入语言的隐藏状态,即得到输入语言的语言特征L; 步骤3:提取输入图像的视觉特征谱; 首先采用深度卷积神经网络ResNet提取输入图像不同尺度的图像特征,然后将所有尺度特征谱进行聚合,并利用堆叠的Transformer编码层以进行不同视觉区域特征之间的交互与关联,生成视觉特征谱V; 步骤4:预测跨模态的人眼注意力谱; 首先利用线性映射层和非线性激活函数,通过聚合当前语言特征和上一时刻注视谱平均池化后的特征,生成与当前时刻注意力感知区域对应的位置滤波器和权重滤波器;然后,利用位置滤波器卷积视觉特征,以生成语言相关的视觉感知区域坐标偏移Δpt;利用权重滤波器获得视觉感知区域中每个坐标位置的权重值wt;由此,针对图像中每个空间位置p0,根据坐标偏移以及权重值,动态加权聚合与其相关的感知区域特征V,获得语言相关的当前时刻视觉注意力感知区域特征表示Vtp0: 式中,p0、pj∈G分别表示图像中任意空间位置p0以及其初始感知区域的坐标偏移,表示当前时刻t在第j个位置的注意力感知坐标偏移,Δpt为固定区域所有坐标位置偏移的集合;通过调整改变上一时刻视觉感知区域窗口,能够自适应模拟人眼注视谱的转移变化;Atp0表示在指示语言描述的激励下,预测的t时刻人眼注意力谱: 式中,表示可学习的权重矩阵,Atp0表示在当前时刻t第p0个图像区域的重要性打分,打分越高,表示人眼对该位置的关注度越高;反之,则表明关注度较低;H和W分别表示当前注意力谱的高和宽;最后预测出当前语言相关的所有人眼注视谱以显式模拟人眼的视觉注意力感知区域以及转移过程;其中,表示包含的注视谱数目; 最后,为了优化注视谱的预测质量以及转移过程,采用谱分布度量损失函数线性相关性度量损失函数和谱时序度量损失函数共同训练注视谱预测模型,使得网络生成更符合人类感知和理解过程的视觉注视谱,即: 式中,表示整体眼动谱的损失函数,表示记录的眼动谱时刻数目,表示KL散度损失函数,用于拉近当前时刻t的真实注视谱与预测谱之间的显著区域分布,为衡量预测注视谱和真实谱之间的线性相关性;用于对所有时刻的预测注视谱进行排序,以准确刻画人眼注视谱的转移变化过程; 步骤5:基于预测的语言引导的人眼注意力谱,分别对视觉特征进行加权聚合,得到跨模态的语义特征; 基于多头注意力机制MATT,采用一个可学习的特征向量作为目标查询,依次与不同时刻的跨模态特征计算关联性,捕获具有判别性的视觉特征,以模拟人类对于目标的视觉与推理过程;针对每个时刻的跨模态特征,采用层归一化LN和一个由两层全连接层组成的前向传播网络FFN进行特征更新;同时,基于更新后的目标查询特征,利用多层感知机MLP预测语言指示目标的边界框坐标;即: Qt+1=LNQt+FFNQt Btx,y,w,h=MLPQt 式中,Btx,y,w,h表示第t时刻预测的目标边界框坐标,x,y,w,h分别表示边界框的中心点坐标、宽和高;Qt表示第t时刻的目标查询向量; 步骤6:指示表达理解网络优化; 在网络训练优化阶段去除了正负样本分配过程,直接计算了预测的目标框Bt与真实标注框之间的回归损失,因此整个网络的损失函数为: 式中,为SmoothL1损失函数,分别约束预测边界框的四个坐标以接近真实框值;旨在综合比较预测边界框和真实边界框之间的交并比;λ1和λ2为损失权重系数,以控制两个损失函数之间的平衡。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人电子科技大学,其通讯地址为:611731 四川省成都市高新区(西区)西源大道2006号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励