Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 积分商城 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 浙江理工大学陈巧红获国家专利权

浙江理工大学陈巧红获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉浙江理工大学申请的专利一种基于图像全局特征注入的视觉问答方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115346067B

龙图腾网通过国家知识产权局官网在2025-11-07发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210878495.2,技术领域涉及:G06V10/764;该发明授权一种基于图像全局特征注入的视觉问答方法是由陈巧红;漏杨波;孙佳锦设计研发完成,并于2022-07-25向国家知识产权局提交的专利申请。

一种基于图像全局特征注入的视觉问答方法在说明书摘要公布了:本发明属于计算机视觉和自然语言处理结合的跨模态方法。目的是提供一种基于图像全局特征注入的视觉问答方法;以通过将图像全局特征作为区域特征的补充,促进了模型的视觉推理能力,从而导致预测结果更加精确。技术方案是:通过对象检测模块提取图像区域特征,通过词向量模型和时序模型提取问题特征;随后将问题特征和图像区域特征送入注意力网络中,提取用于回答问题所需的上下文内容,在注意力学习的过程中,通过层内聚合和层间聚合生成图像的全局特征;然后利用双边门控机制,融合图像区域特征、图像全局特征和问题特征;最后通过分类网络进行答案预测。

本发明授权一种基于图像全局特征注入的视觉问答方法在权利要求书中公布了:1.基于图像全局特征注入的视觉问答方法,包括以下步骤: 步骤1、对输入的图像进行预处理,通过对象检测模块提取可被模型接受的图像特征; 步骤2、对输入的问题进行预处理,通过预训练的词向量模型和时序模型提取可被模型接受的问题特征; 步骤3、对步骤1和步骤2得到的图像特征与问题特征输入到包含层内聚合的注意力网络中,获得图像区域特征、问题特征和含较多噪声信息的图像全局特征; 步骤4、对于步骤3中层内聚合的图像全局特征,通过层间聚合过滤噪声信息; 步骤5、将步骤3和步骤4产生的图像全局特征、图像区域特征和问题特征通过双边门控机制进行特征融合,获得融合特征; 步骤6、将步骤5中获得的融合特征输入多分类器中,通过多分类器选出概率最高的答案作为模型的预测结果; 所述步骤1中对输入的图像进行预处理,是采用FasterRCNN作为目标检测器,首先利用VGG和ResNet基础网络提取图像特征图,然后再根据区域建议网络和区域建议池化来得到固定尺寸的建议框特征图,再对建议框特征图进行分类与回归,获得动态数量的候选对象特征作为视觉特征; 对于每张输入的图像,提取的视觉特征如下式所示: 式中:为每张图像所提取的图像特征,表示任意一个候选对象的特征,表示每个候选对象特征的维度为,M为图像候选特征数量; 所述步骤2中对于输入的问题进行预处理是指,首先根据空格和标点符号将输入的问题分割成单词形式,并将各问题所包含的单词数填充或截断到相同的长度;然后使用维度为300的GloVe模型进行词嵌入,将单词映射到同一个向量空间中;对于GloVe模型中没有的单词,通过选择随机向量进行初始化;最后使用隐藏层维度为的长短时记忆网络,提取每个时序单元的输出作为语言特征;如下式所示: 式中:为每个问题所提取的问题特征,表示任意一个时序单元的输出,为语言特征的维度,N为问题填充或截断到的相同长度; 所述步骤3中层内聚合的方法是:对于图像的输入,首先通过平均池化的方式获取存在较多噪声的图像全局特征g;然后将图像全局特征和图像区域特征进行拼接,生成新的图像特征C0;层内聚合的过程如下所示: ; 所述步骤3中的注意力网络是指遵循编码和解码结构的深层联合注意学习结构;具体如下所示: 1对于问题特征的输入,将进行层包含自注意力模块的编码器学习;其中层编码器的执行流程包括: 1首先将编码器输入通过权重矩阵映射到个并行头上;然后对每个并行头进行缩放点积注意力;具体过程如下公式所示: 式中:为第个并行头的注意力结果,为缩放因子;softmax为归一指数化函数;Yl为问题特征经过l层编码器之后的输出; 2随后通过拼接个并行头所生成的注意结果,得到包含子空间信息的多头注意力;最后对注意结果进行残差和归一化操作,作为下一层编码器的输入;具体过程如下式所示: 式中:LayerNorm为归一化操作,Concat为拼接操作,为学习参数,h为多头注意力的平行头数目; 3接着将通过层编码器的学习后输出的包含预测答案所需上下文的问题特征,输入到包含两个ReLU非线性激活的多层感知器MLP中,然后通过SoftMax函数计算出各个特征权重;具体公式如下所示: ; 式中:MLP为多层感知器,L为编码器层数,YL为通过L层编码器后的问题特征输出; 4最后通过加权求和的形式,生成用于特征融合的问题特征;具体公式如下所示:为编码器的层数 式中:N为问题填充或截断到的相同长度,每个问题特征向量的权重,为第i个问题特征向量; 2对于图像特征输入,将进行层包含自注意力模块的解码器学习;其中层解码器的执行流程包括: 1首先将通过权重矩阵映射到个并行头上;然后对每个并行头进行缩放点积注意力;具体过程如下公式所示: 式中:为第个并行头的注意力结果,为缩放因子,Cl为图像特征经过l层解码器之后的输出; 2随后通过拼接个并行头所生成的注意结果,得到包含子空间信息的多头注意力;最后对注意结果进行残差和归一化操作,作为下一层编码器的输入;具体过程如下公式所示: 式中:LayerNorm为归一化操作,Concat为拼接操作,为学习参数; 3除了自注意力学习以外,还需要进行问题引导图像的跨模态注意力学习;具体公式如下所示: 式中:此时的图像特征输出为; 抽取出图像的区域特征,首先将包含预测答案所需上下文的图像区域特征输入到包含两个ReLU非线性激活的多层感知器MLP中,然后通过SoftMax函数计算出各个特征权重;具体公式如下所示: ; 最后通过加权求和的形式,生成用于特征融合的图像区域特征;具体公式如下所示: 式中:为每个图像区域特征向量的权重,为第i个图像区域特征向量; 所述步骤4中层间聚合的方法是: 1首先提取各层解码器中的图像全局特征获得;然后将其送入单层长短记忆网络中,提取各层的输出获得图像全局特征; 公式如下所示: 式中:gi为第i层解码器的图像全局特征,LSTM为长短记忆网络,hi为第i个LSTM单元的输出 2接着计算问题特征和图像全局特征的相关性,作为特征权重,公式如下所示: 式中:ahi为相关性权重,为问题特征,sigmoid为激活函数; 3最后获得的相关性权重对图像全局特征[数学公式]进行加权求和,得到用于特征融合的图像全局特征,公式如下所示: 。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人浙江理工大学,其通讯地址为:310018 浙江省杭州市下沙高教园区白杨街道2号大街928号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。