华南理工大学丁长兴获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉华南理工大学申请的专利提高跨模态图像检索模型泛化能力的方法、装置及介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN118467765B 。
龙图腾网通过国家知识产权局官网在2025-09-16发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202410386167.X,技术领域涉及:G06F16/53;该发明授权提高跨模态图像检索模型泛化能力的方法、装置及介质是由丁长兴;谭文韬;江佳瑜设计研发完成,并于2024-04-01向国家知识产权局提交的专利申请。
本提高跨模态图像检索模型泛化能力的方法、装置及介质在说明书摘要公布了:本发明公开了一种提高跨模态图像检索模型泛化能力的方法、装置及介质,其中方法包括:获取图像数据集,对图像数据进行标注,获得描述风格单一的大规模图像‑文本数据集;对描述风格单一的大规模图像‑文本数据集进行分析,提取获得风格单一的句式模板;根据风格单一的句式模板生成风格多样的句式模板集合;结合风格多样的句式模板集合,使用基于模板的多样性增强策略,再次对图像数据进行标注,获得描述风格多样的大规模图像‑文本数据集;构建并初始化多模态Backbone网络;根据大规模图像‑文本数据集,使用噪声感知掩盖策略对多模态Backbone网络进行训练。本发明提升了跨模态图像检索模型泛化性能,可广泛应用于图像处理与识别技术领域。
本发明授权提高跨模态图像检索模型泛化能力的方法、装置及介质在权利要求书中公布了:1.一种提高跨模态图像检索模型泛化能力的方法,其特征在于,包括以下步骤: 获取图像数据集,对图像数据进行标注,获得描述风格单一的大规模图像-文本数据集; 对描述风格单一的大规模图像-文本数据集进行分析,提取得到风格单一的句式模板; 根据风格单一的句式模板生成风格多样的句式模板集合; 结合风格多样的句式模板集合,使用基于模板的多样性增强策略,再次对图像数据进行标注,获得描述风格多样的大规模图像-文本数据集; 构建多模态Backbone网络,并对多模态Backbone网络进行初始化; 根据大规模图像-文本数据集,使用噪声感知掩盖策略对多模态Backbone网络进行训练; 所述使用噪声感知掩盖策略对多模态Backbone网络进行训练,包括: 构建一个文本单词噪声水平字典; 训练图像经过图像编码器,在图像编码器的第l层输出图像块特征Fv,在最后一层输出图像语义特征vcls; 原始文本调取文本单词噪声水平字典中上一个训练周期记录下的关于自身单词的噪声水平,并依据该噪声水平,对原始文本实施噪声感知掩盖策略; 原始文本与掩盖文本一起输入文本编码器,在文本编码器的第l层输出原始文本词元特征Ft,在最后一层输出掩盖文本的语义特征t′ eos; 根据图像块特征Fv与原始文本词元特征Ft计算相似度,得出新的原始文本单词噪声水平, 将文本单词噪声水平字典中的对应元素值更改成新的值并保存,等待下一训练周期使用;根据图像语义特征vcls与掩盖文本的语义特征t′ eos计算相似性分布匹配损失;根据损失函数计算反传梯度,网络模型参数根据梯度与学习率大小进行一次更新; 所述根据图像块特征Fv与原始文本词元特征Ft计算相似度,得出新的原始文本单词噪声水平,将文本单词噪声水平字典中的对应元素值更改成新的值并保存,等待下一训练周期使用,包括: 根据图像块特征Fv与原始文本词元特征Ft计算余弦相似度; 根据每个词元与全部图像块的余弦相似度数值得到每个词元的噪声水平并保存; 在下一周期使用时,根据每个词元的噪声水平数值计算出每个词元的原始掩盖概率; 对全部词元的原始掩盖概率进行归一化,使其整体平均掩盖概率等于超参数ρ。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人华南理工大学,其通讯地址为:510641 广东省广州市天河区五山路381号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。