华东师范大学何峻获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉华东师范大学申请的专利一种基于打乱问题类型的视觉问答去偏方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116109887B 。
龙图腾网通过国家知识产权局官网在2025-12-05发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310095240.3,技术领域涉及:G06V10/774;该发明授权一种基于打乱问题类型的视觉问答去偏方法是由何峻;怀天宇;肖路巍;吴兴蛟;贺樑设计研发完成,并于2023-02-06向国家知识产权局提交的专利申请。
本一种基于打乱问题类型的视觉问答去偏方法在说明书摘要公布了:本发明公开了一种基于打乱问题类型的视觉问答去偏方法,其特点是该方法包括:a对每个图像‑问题对中的问题进行拆分,分为问题类型与其他部分;b提取数据集中每个问题的问题类型,形成一个问题类型集合;c在问题类型集合中随机选择一个不同于拆分之前的问题类型,将其与该问题的其他部分进行连接操作;d定义损失函数,使构造的负样本作为惩罚项,从而让视觉问答模型根据图像回答问题,而不是根据语言先验。本发明与现有技术相比具有消除语言先验的显著效果,利用自监督学习构建负样本,不引入额外的监督信息,可在一定程度上提升视觉问答模型的准确率,有效减轻了视觉问答的语言先验问题,方法简便,效果好,具有良好的应用前景。
本发明授权一种基于打乱问题类型的视觉问答去偏方法在权利要求书中公布了:1.一种基于打乱问题类型的去偏视觉问答方法,其特征在于,该方法包括以下具体步骤: 步骤1:对每个图像-问题对中的问题进行拆分,将其分为问题类型和问题其他部分; 步骤2:提取数据集中每个问题的问题类型,形成一个问题类型集合; 步骤3:从问题类型集合中随机选择一个不同于拆分之前的问题类型,将其与该问题的其他部分进行连接操作; 步骤4:根据以上操作定义损失函数,使构造的负样本作为惩罚项,从而让VQA模型根据图像回答问题; 所述步骤1具体包括: 1.1:分析视觉问答中语言先验的来源,经过实验与验证,偏见来源于文本模态; 1.2:在文本模态中,语言先验的来源为问题类型与关键词,并将关键词与其他词划分为问题其他部分; 1.3:设置问题类型长度为2,将一个问题拆分为问题类型与问题其他部分,并将其分别存储到两个列表中; 所述步骤3具体包括: 3.1:依次遍历存储问题其他部分的列表,在问题类型集合中随机抽取出一个与当前列表项的原问题类型不同的新问题类型; 3.2:将每一项的问题其他部分与随机抽取出的问题类型进行拼接,形成构造的负样本,将其放入数据集中; 所述步骤4具体包括: 4.1:使用Faster-RCNN提取样本视觉模态的特征;使用LSTM提取文本模态的特征,将特征和进行多模态特征融合,得到跨模态特征; 4.2:将跨模态特征送入分类器cls中进行分类,并由下述a式进行答案空间的预测:a; 其中,Qi为第i个样本文本模态的特征,Ii为第i个样本视觉模态的特征; 4.3:根据答案空间与地面真值由下述b式计算损失函数; b; 其中,ξ为sigmoid函数;li为第i个样本的每个标签的对应目标分数; 4.4:将得到的问题表示为,重复上述4.2步骤得到负样本的答案空间预测概率,且由下述c式构造损失函数Lshu: c; 其中,为第i个负样本的答案空间概率分布; 4.5:将步骤4.3和步骤4.4的两个损失函数加权求和,得到用于优化VQA模型的最终损失函数Lsqt,其由下述e式表示为: e; 其中,为权重参数。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人华东师范大学,其通讯地址为:200241 上海市闵行区东川路500号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励