Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 积分商城 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 南京理工大学杨杨获国家专利权

南京理工大学杨杨获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉南京理工大学申请的专利基于多层次结构自感知的深度跨模态检索方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119415725B

龙图腾网通过国家知识产权局官网在2025-11-11发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411355845.2,技术领域涉及:G06F16/583;该发明授权基于多层次结构自感知的深度跨模态检索方法及系统是由杨杨;张宇萱;蒋庆远;孙伟;邵锡军;黄威龙设计研发完成,并于2024-09-27向国家知识产权局提交的专利申请。

基于多层次结构自感知的深度跨模态检索方法及系统在说明书摘要公布了:本发明公开了一种基于多层次结构自感知的深度跨模态检索方法及系统,方法包括:处理原始样本为原始样本序列,原始样本包括成对图像、文本实体;将原始样本序列分别输入至跨模态网络并计算跨模态对比损失与跨模态匹配损失;将原始样本序列输入到单模态教师网络并计算表征蒸馏损失使跨模态网络学得单模态表征层面的最优跨模态表征;计算单模态网络与跨模态网络各自的样本相似度矩阵,融合两单模态网络相似度矩阵后与跨模态网络相似度矩阵计算结构自感知的关系蒸馏损失;对整体模型进行参数更新以训练模型。本发明通过跨模态匹配损失与多层次结构自感知蒸馏损失,学得优秀的跨模态一致性表征,保留单模态的结构完整性并提高跨模态检索效果。

本发明授权基于多层次结构自感知的深度跨模态检索方法及系统在权利要求书中公布了:1.一种基于多层次结构自感知的深度跨模态检索方法,其特征在于,包括如下步骤: 步骤1,处理原始样本为原始样本序列,原始样本包括成对图像、文本实体; 获得原始样本序列包括以下步骤: 进行文本与图像初始化,具体形式为: 其中LT为文本数量,d为文本向量维度,LI=HWP2,P×P代表图像每个块的大小,T为原始文本,I为原始图像,C、H、W分别为图像的通道数、宽和高; 步骤2,将原始样本序列分别输入至跨模态网络并计算跨模态对比损失与跨模态匹配损失,具体包括: ①使用基于注意力的图像编码器对图像进行编码,获得图像模态第一特征表示,具体形式为: 其中XI为图像模态特征; ②使用基于注意力的文本编码器对图像进行编码,获得文本模态第一特征表示,具体形式为: 其中XT为文本模态特征; ③使用跨模态注意力机制与前馈网络获得跨模态模块的第一特征表示,具体形式为: MultiAttX=[AttX1,...,AttXM]WM FFN=MultiAttX=max0,MultiAttXW1+b1W2+b2 其中xI与xT的维度相同;M为多头注意力头的数量,dM=dM,d为第一特征共享子空间的维度;X代表XI或XT;WM、W1、W2分别为多头注意力、前馈网络的两个学习的参数;Att为注意力标志;QT、QI为图像和文本的查询,为图像和文本的键,VI和VT为值;MultiAtt为多头注意力,FFN为前馈网络,max表示取最大,b1、b2为前馈网络的两个偏置,softmax为激活函数; ④计算跨模态对比损失,具体形式为: 其中dI,T=cosgiICLS,gtTCLS与dT,I=cosgtTCLS,giICLS为相似度函数,g代表编码器,p为模型预测值,CE为交叉熵损失,τ为温度规模系数,ICLS和TCLS为视觉和语言编码器的[CLS]令牌,exp代表期望,为图像文本损失期望,yi2tI为图像I检索文本真值,yt2iT为文本T检索图像真值,pi2tI与pt2iT分别为图像检索文本的与文本检索图像预测,J为一个批次中图像或文本的个数,和分别代表一批次中的第k个图像或文本的检索预测; ⑤计算跨模态匹配损失,具体形式为: litm=[CEymatch,pmatch] 其中ymatch为代表真值的一维独热编码,pmatch=φITCLS为二维分类器输出的匹配预测概率,φ代表二分类器; 步骤3,将原始样本序列输入到单模态教师网络并计算表征蒸馏损失使跨模态网络学得单模态表征层面的最优跨模态表征,包括以下步骤: ①原始样本序列输入单模态网络以获得最优单模态模型包括以下步骤: Rv=||minDv-△+⊙Dv-△-,0||0 Rw=||minDw-△+⊙Dw-△-,0||0 其中s·用于衡量两个实例的相似度;DvIi,Ij=sIi,Ij与DwIi,Ij=sIi,Ij为相似度衡量;负例I-、T-从相同批次进行采样,正例I+、T+通过对每个实例进行扰动后得到;Rv与Rw为对距离的正则化;K为批次数,△+=γ+·1N×N与△-=γ-·1N×N为阈值参数,其中γ为区分数据对的相似性的边际值,lince为图像的nce损失、ltnce为文本的nce损失; ②计算视觉模态表征蒸馏损失: 其中表示同一批次内视觉到视觉的相似度,为期望,yi2iI为图像检索图像的真值、pi2iI为图像检索图像的预测值; ③计算文本模态表征蒸馏损失: 其中表示同一批次内文本到文本的相似度; 步骤4,计算单模态网络与跨模态网络各自的样本相似度矩阵,融合两单模态网络相似度矩阵后与跨模态网络相似度矩阵计算结构自感知的关系蒸馏损失,包括以下步骤: ①分别计算同一批次内,两单模态模型与跨模态模型的关系相似度矩阵SI、ST与SIT; ②根据超参数λ,得到两单模态的混合相似度矩阵SO: SO=λSI+1-λST λ为超参数; ③计算混合相似度矩阵与跨模态模型相似度矩阵的蒸馏损失: 步骤5,根据以上损失函数对整体模型进行参数更新以训练模型: ①计算跨模态损失: lcr=litc+litm ②计算多粒度蒸馏损失: lmd=liic+lttc+lrd ③整体损失函数: l=lcr+lmd。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人南京理工大学,其通讯地址为:210094 江苏省南京市孝陵卫200号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。