厦门大学洪泽波获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉厦门大学申请的专利一种基于多任务训练的图像描述和问答方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116561368B 。
龙图腾网通过国家知识产权局官网在2025-07-25发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310662783.9,技术领域涉及:G06F16/583;该发明授权一种基于多任务训练的图像描述和问答方法是由洪泽波;纪荣嵘;曹刘娟;张声传设计研发完成,并于2023-06-06向国家知识产权局提交的专利申请。
本一种基于多任务训练的图像描述和问答方法在说明书摘要公布了:一种基于多任务训练的图像描述和问答方法,涉及计算机视觉和计算机语言。使用BLIP预训练模型,载入大规模图文数据集预训练;预处理图像描述数据和图像问答数据,使用标识符区分输入数据,图像描述、图像问答两个任务在同一框架下实现;构建多任务模型,使用多模态图像文本特征提取,图像经过视觉特征提取模块成为视觉向量,作为注意力输入到文本特征提取模块之中;文本使用LM损失函数,使模型学习文本的输出内容;根据模型训练的任务计算对应的损失函数及权重:动态学习分配多个任务的损失权重,调整最优学习方式。在同一个模型下实现图像描述和图像问答,可公用数据集,性能显著提升。产生的问答对捕捉更多图片细节,质量高。
本发明授权一种基于多任务训练的图像描述和问答方法在权利要求书中公布了:1.一种基于多任务训练的图像描述和问答方法,其特征在于包括以下步骤: 1预训练模型,使用BLIP的预训练模型,载入大规模图文数据集预训练模型; 2预处理图像描述数据和图像问答数据,使用标识符区分输入数据,图像描述、图像问答两个任务在同一框架下实现; 所述预处理图像描述数据和图像问答数据,包括: 1图像描述数据:在输入的图像描述数据文本开头加入对应的特征符号[cap],使得模型可以根据符号判断输入的文本和对应的人物; 2图像问答数据:对于图像问答数据,将图像问题和答案进行拼接成为问答对,在输入的问答文本前加入[QA]符号;表示输入的是问答对; 3构建图像描述、图像问答多任务模型; 所述多任务模型包括模型图像描述和图像问答两个任务,图像问答包括图像问题回答和图像问题生成两个子任务; 载入步骤1预训练好的模型,使用步骤2预处理后的图像描述数据和图像问答数据在下游任务微调模型;使用多模态图像文本特征提取,图像经过视觉特征提取模块成为视觉向量,作为注意力输入到文本特征提取模块之中;文本使用LM损失函数,使得模型学习到文本的输出内容; 4根据模型训练的任务计算对应的损失函数及其权重; 5优化损失函数及其对应的权重,动态学习分配多个任务的损失权重,调整最优学习方式; 可学习权重如下: 通过可学习权重将模型图像描述、图像问题回答、图像问题生成三个任务的损失函数相加,动态优化三个任务的损失函数,使多任务模型达到相互促进的效果;当θ参数增加时候,对应的权重L就减少,反过来当θ参数减少时候,对应的权重L就增加;θ参数作为多任务损失函数的正则化项,使各项任务的损失函数权重不会偏离太多; 6采用训练后的多任务模型根据用户需求进行图像描述或图像问答; 所述多任务模型的框架依次包括:混合文本学习模块、文本编码模块、多任务动态损失权重分配模块; 所述混合文本学习模块,用于通过引入文本标识,区分不同类别的文本; 所述文本编码模块,用于对输入的文本编码成可供模型识别的格式; 所述多任务动态损失权重分配模块,用于动态调整多任务损失权重,提升任务性能。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人厦门大学,其通讯地址为:361005 福建省厦门市思明区思明南路422号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。