华南理工大学陈峰获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉华南理工大学申请的专利一种通过累积学习策略克服视觉问答中先验影响的方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN118070041B 。
龙图腾网通过国家知识产权局官网在2025-11-18发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202410221949.8,技术领域涉及:G06F18/213;该发明授权一种通过累积学习策略克服视觉问答中先验影响的方法是由陈峰;毛爱华设计研发完成,并于2024-02-28向国家知识产权局提交的专利申请。
本一种通过累积学习策略克服视觉问答中先验影响的方法在说明书摘要公布了:本发明公开了一种通过累积学习策略克服视觉问答中先验影响的方法,旨在克服现有视觉问答领域中先验偏见对性能的影响。该方法包括以下步骤:输入视觉和语言的多模态数据,利用双重表示学习分支构建出对主要和次要类别的高效学习框架;对语言模态数据的候选答案进行统计,得到训练数据的先验表示;通过联合学习模块,实现对主要类别的鲁棒性表示和对次要类别的逐步关注,有效融合多模态特征;在累积学习策略的指导下,首先专注于数据集中的主要类别,随后逐渐将关注点转移至次要类别,以实现更均衡的学习。本发明方法可广泛应用于自然语言处理、计算机视觉等领域,具有更优的效果和更强的泛化能力。
本发明授权一种通过累积学习策略克服视觉问答中先验影响的方法在权利要求书中公布了:1.一种通过累积学习策略克服视觉问答中先验影响的方法,其特征在于,所述方法包括以下步骤: S1、构建数据集:收集现实世界中拍摄的图像及其相关的问题和答案,形成问题-图像-答案三元组,将三元组聚集成一个专为视觉问答设计的数据集,数据集通过均匀采样策略进行样本选取; S2、数据处理:对数据集内的问题-答案对进行统计分析,计算答案分布偏差;所述步骤S2中,对于每个问题类别,首先计算该类别下所有候选答案的出现次数,进而得出每个答案的出现频率,并以此形成答案分布偏差数组Bi,type,表示为: Bi,type数组表示第i个问题类别的答案分布偏差,aj是第j个候选答案的数量,C代表候选答案的数量,A是所有候选答案出现次数的总和; S3、特征学习:将数据集中问题和图像输入至两个独立的第一和第二特征学习分支,每个分支内部对问题执行词嵌入和特征提取,同时对图像进行特征提取,分别获取问题特征Q和图像特征I,接着,将问题特征Q和图像特征I输入点积注意力模块生成图像的二级特征I2,图像二级特征I2和问题特征Q逐元素相乘得到二次融合特征,第一特征学习分支中的二次融合特征记为f1,第二特征学习分支中的二次融合特征记为f2,将f1和f2分别送入两个分类器,两个分类器分别将f1和f2映射到一维的概率数组,数组中每一位的值代表一个候选答案为真的概率,两个分类器的输出概率分别记为p1和p2; S4、损失计算与融合:将分类器输出概率p1和p2通过加权求和方式得到预测概率p,将预测概率p与图像对应的正确答案进行比对分别计算得到二元交叉熵BCE损失和LMH损失,将BCE损失和LMH损失通过加权求和的方式得到用于优化视觉问答模型的最终损失loss; S5、训练参数调整:在训练过程中,通过调整权重参数α控制BCE损失和LMH损失在最终损失loss中的占比,并控制p1和p2在预测概率p中的占比; S6、参数优化:利用最终损失loss对视觉问答模型的参数进行梯度计算,并用Adam优化器进行参数优化; S7、模型训练:按照规定的训练周期数epochs重复执行步骤S2至S6,完成视觉问答模型的训练; S8、模型应用:将实际拍摄的图像及其对应问题输入至训练完成的视觉问答模型中,模型输出相应的答案。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人华南理工大学,其通讯地址为:510640 广东省广州市天河区五山路381号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励