安徽理工大学夏晨星获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉安徽理工大学申请的专利混合CNN与Transformer的域泛化注视估计方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN117173773B 。
龙图腾网通过国家知识产权局官网在2026-04-14发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202311328554.X,技术领域涉及:G06V40/16;该发明授权混合CNN与Transformer的域泛化注视估计方法是由夏晨星;周广澳;葛斌;高修菊;陶展鹏;赵文俊设计研发完成,并于2023-10-14向国家知识产权局提交的专利申请。
本混合CNN与Transformer的域泛化注视估计方法在说明书摘要公布了:本发明属于计算机视觉领域,提供了混合CNN与Transformer的域泛化注视估计算法,包括以下步骤:首先,采用ResNest‑50与ViT双流特征提取网络进行特征提取并使用ResNest‑50分支的多层融合特征作为ViT网络的输入以代替使用全脸图像作为输入;随后,为缓解ResNest分支与ViT分支的输出特征的维度和语义差异,特征融合增强模块FFEM被设计用于融合双分支的输出特征;之后,一种基于对抗策略的域泛化方法被提出用来提升模型的跨域性能。一个额外的图像重建任务被设计用来与注视估计任务进行对抗性学习,并使用互信息神经估计器MINE来计算图像重建任务和注视估计任务的特征空间的互信息以解耦注视无关特征个体外观等与注视相关特征;最后利用混合损失函数进行深度监督训练。
本发明授权混合CNN与Transformer的域泛化注视估计方法在权利要求书中公布了:1.一种混合CNN与Transformer的域泛化注视估计方法,其特征在于:该方法运行包含以下步骤: 1混合CNN与Transformer的域泛化注视估计方法采用ResNest-50与ViT双流特征提取网络,其中,ViT网络的输入并非直接使用全脸图像,而是将ResNest-50四个阶段的多尺度特征图分别经过1×1卷积和池化操作,再拼接融合后形成的多层融合特征作为输入;为缓解ResNest分支与ViT分支的输出特征的维度与语义差异,特征融合增强模块FFEM被设计用于融合双分支的输出特征;为提升模型的泛化性能,解耦注视无关特征,一个额外的图像重建任务被设计用来与注视估计任务进行对抗性学习,并使用互信息神经估计器MINE来最小化图像重建任务和注视估计任务的特征空间的互信息,实现特征解耦; 所属步骤1具体方法是: 1.1将ETH-XGazeE、Gaze360G、MPIIFaceGazeM数据集作为模型的训练与测试数据集,为了验证模型的泛化性能,设计了两个域泛化任务:ETH-XGaze→MPIIFaceGazeE→M、Gaze360→MPIIFaceGazeG→M; 1.2ViT网络的输入来自ResNest-50网络生成的多层特征的融合特征,ResNest-50包含四个残差块conv2、conv3、conv4、conv5,四个残差块分别产生维度通道数×长×宽为256×56×56、512×28×28、1024×14×14、2048×7×7的特征图,定义四个特征图分别为,则多层特征融合过程可以表示如下: 1 将多层特征融合后产生的特征图作为ViT分支的输入特征,其中ViT的层数设置为6层; 1.3双分支生成的输出特征通过特征融合增强模块FFEM进行融合,特征融合增强模块首先重塑了ViT输出特征,然后使用1×1卷积对齐通道数,使其维度与ResNest分支输出特征一致,将ResNest分支的输出特征定义为,将重塑后ViT的输出特征定义为,将融合后产生的特征定义为,那么融合过程可以表示为: 2 融合过程实现了特征之间的交互并自动学习权重图来控制不同位置和级别的特征的权重,突出了有用的特征,FFEM的最后使用了不同尺度的常规卷积形成多分支结构并将其级联,以水平扩展网络的宽度,增加网络的感受野,增强特征表达; 1.4个体外观和环境差异对模型泛化能力影响较大,为提升模型泛化能力,所述方法采用额外的图像重建任务使其与注视估计任务进行对抗性学习,将ResNet50主干网络作为图像重建任务的编码器,解码器由5个上采样模块组成,将编码器生成的特征空间定义为、经过第次上采样模块生成的图像定义为,则解码过程可以表示如下: 3 1.5所述方法通过最小化图像重建任务的中间特征和注视估计任务CNN分支的中间特征的互信息来解耦特征,提高模型跨域性能,在方法中互信息神经估计器MINE被用来计算特征之间的互信息,它是一种基于KL散度和Donsker-Varadhan表示的神经网络,MINE估计的互信息可以表示为: 4 其中,是和的联合分布,是参数为的神经网络MINE,和表示和的随机变量; 2所述方法包含三个子网络,即注视估计网络、图像重建网络和互信息估计网络,将三个子网络的损失函数分别定义为和,利用混合损失函数进行深度监督训练。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人安徽理工大学,其通讯地址为:232000 安徽省淮南市山南新区泰丰大街168号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励