西交利物浦大学武芳宇获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉西交利物浦大学申请的专利基于OSCAR的图文检索模型的训练方法和实现图文检索的方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN117390213B 。
龙图腾网通过国家知识产权局官网在2025-06-27发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202311395517.0,技术领域涉及:G06F16/583;该发明授权基于OSCAR的图文检索模型的训练方法和实现图文检索的方法是由武芳宇;邱文婷;刘净心;林永义设计研发完成,并于2023-10-26向国家知识产权局提交的专利申请。
本基于OSCAR的图文检索模型的训练方法和实现图文检索的方法在说明书摘要公布了:本发明提供一种基于OSCAR的图文检索模型的训练方法和实现图文检索的方法,训练方法包括:获取训练集;将训练集中的多个图像‑文本样本对输入面向视觉语言任务的预训练模型OSCAR中,进行特征提取获得图像特征表示和文本特征表示;将训练集中的每个样本作为锚点样本,基于图像特征表示和文本特征表示,生成锚点样本对应的多个不同难度的负样本;计算正样本对中图像与文本的正相似度、负样本对和生成的负样本对中图像与文本之间的负相似度;基于正相似度和负相似度计算损失函数,通过损失函数对预训练模型OSCAR进行微调,得到完成训练的OSCAR图文检索模型。本案中,能够提升模型的泛化能力,提高模型图文检索的准确性和效率。
本发明授权基于OSCAR的图文检索模型的训练方法和实现图文检索的方法在权利要求书中公布了:1.一种基于OSCAR的图文检索模型的训练方法,其特征在于,所述方法包括: 获取训练集,所述训练集包括多个图像-文本样本对; 将所述训练集中的多个图像-文本样本对输入面向视觉语言任务的预训练模型OSCAR中,进行特征提取获得图像特征表示和文本特征表示; 将所述训练集中的每个样本作为锚点样本,基于所述图像特征表示和所述文本特征表示,生成所述锚点样本对应的多个不同难度的负样本;生成的负样本与所述锚点样本组成生成的负样本对; 计算正样本对中图像与文本的正相似度、负样本对和所述生成的负样本对中图像与文本之间的负相似度; 基于所述正相似度和负相似度计算损失函数,通过所述损失函数对所述视觉语言预训练模型OSCAR进行微调,得到完成训练的OSCAR图文检索模型; 所述将所述训练集中的每个样本作为锚点样本,基于所述图像特征表示和所述文本特征表示,生成所述锚点样本对应的多个不同难度的负样本,包括: 选取一个样本作为所述锚点样本q,所述样本为图像样本或文本样本; 基于所述锚点样本q,对所述训练集中的每个样本进行全局语义聚类,得到负样本聚类集合G={g1,g2,…,gM},其中,gi={xi1,xi2,…,xiN}表示具有相似语义的N个负样本的负样本集合,xij表示该负样本集合gi中第j个负样本,i取1到M中的任意整数,j取1到N中的任意整数; 基于核函数计算每个负样本与所述锚点样本q之间的相似度以及对应的权重,进行加权平均获得多个不同难度的负样本; 所述基于核函数计算每个负样本与所述锚点样本q之间的相似度以及对应的权重,进行加权平均获得多个不同难度的负样本,包括: 基于高斯径向基函数计算每个负样本与锚点样本之间的相似度: 其中,k表示锚点样本q与负样本xjn之间的相似度,||·||表示范式距离,σ为宽度参数; 根据以下公式计算每个负样本与锚点样本间的相似度对应的权重Wn: JW=min||X-Wn|| 其中,JW为最小二乘法中表示误差的成本函数,W为待优化的权重矩阵;X表示输入数据矩阵,每一行表示负样本,每一列表示一个特征;Wn为权重矩阵W的权重值;||·||表示计算误差; 通过加权平均计算得到生成的负样本: 其中,表示生成的与锚点样本对应的负样本; 若锚点样本为图像样本v,则生成的负样本为文本负样本若锚点样本为文本样本c,则生成的负样本为图像样本
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人西交利物浦大学,其通讯地址为:215123 江苏省苏州市工业园区独墅湖高等教育区仁爱路111号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。