Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 积分商城 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 电子科技大学李宏亮获国家专利权

电子科技大学李宏亮获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉电子科技大学申请的专利一种基于文本监督的第一视角场景解析方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119296103B

龙图腾网通过国家知识产权局官网在2025-10-24发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411617566.9,技术领域涉及:G06V20/70;该发明授权一种基于文本监督的第一视角场景解析方法是由李宏亮;施兆丰;邱荷茜;王岚晓;孟凡满;吴庆波;许林峰设计研发完成,并于2024-11-13向国家知识产权局提交的专利申请。

一种基于文本监督的第一视角场景解析方法在说明书摘要公布了:该发明公开了一种基于文本监督的第一视角场景解析方法,属于图像处理领域,特别是第一视角视觉场景解析领域。本发明提出了跨模态提示学习模块,引入视觉与文本可学习提示向量,针对在第三人称数据上预训练的视觉语言模型进行微调,使其能够应用于具有复杂目标关系的第一视角图像;此外,本发明还提出了表征知识迁移模块,将视觉语言预训练模型的特征级知识蒸馏到微调后的第一视角编码器中,提高第一视角模型的跨模态关联能力,从而基于类别文本对第一视角场景中的目标进行准确分割。本发明创新地提出了一种基于文本监督的第一视角场景解析方法,利用第一视角图像的类别文本生成对应的分割伪掩码以缓解像素级标注稀缺的问题。

本发明授权一种基于文本监督的第一视角场景解析方法在权利要求书中公布了:1.一种基于文本监督的第一视角场景解析方法,该方法包括三个阶段: 第一阶段:提示学习与知识迁移阶段, 第二阶段:伪标签生成阶段, 第三阶段:分割模型训练阶段; 第一阶段包括: 步骤1:采用的预训练视觉语言模型CLIPViT-B16版本的视觉与文本模型作为第一视角视觉编码器ψV·和第一视角文本编码器ψT·,采用CLIPViT-L14版本中的视觉与语言模型作为教师视觉编码器ψ′V·与教师文本编码器ψ′T·; 将第一视角图像I同时输入教师视觉编码器ψ′V·与第一视角视觉编码器ψV·,并且将对应的第一视角类别文本TCLS输入教师文本编码器ψ′T·与第一视角文本编码器ψT·; 步骤2:随机初始化一组可学习的视觉提示向量PV和一组可学习的文本提示向量PT,分别作为第一视角视觉编码器ψV·与文本编码器ψT·的额外输入;引入可学习的视觉到文本的提示映射层φV→T和文本到视觉的提示映射层φT→V,并分别对视觉提示向量PV和文本提示向量PT进行跨模态映射,得到视觉到文本的提示向量PV→T与文本到视觉的提示向量PT→V; 经过跨模态映射层得到的PV→T将视作文本模态的提示向量,同理,PT→V将被视作视觉模态的提示向量; 步骤3:分别将第一视角图像I与第一视角类别文本TCLS分别输入教师视觉编码器ψ′V·与教师文本编码器ψ′T·,提取教师视觉特征FV′与教师文本特征FT′,其具体公式如下所示: FV′=ψ′VI FT′=ψ′TTCLS 将第一视角图像I、视觉可学习提示向量PV以及映射后的PT→V共同输入视觉编码器ψV·中进行微调;同理,将第一视角类别文本TCLS、文本可学习提示向量PT以及映射后的PV→T共同输入文本编码器ψT·; 步骤4:分别对教师视觉特征FV′、教师文本特征FT′、第一视角视觉特征FV、第一视角文本特征FT进行全局平均池化操作,得到对应全局特征g′V、g′T、gV、gT,接着针对视觉与文本两种模态的特征,分别设定视觉知识蒸馏损失LVKD与文本知识蒸馏损失LTKD; 步骤5:将第一视角视觉全局特征gV通过CLIP模型自带的跨模态映射层,得到映射后的视觉特征并与第一视角文本特征FT中的每一个文本特征向量计算余弦相似度,将计算结果视为多标签分类预测值并与多标签分类真实标签y计算二值交叉熵损失,记作LCLS;第一阶段的优化损失L如下式所示: L=LCLS+λ1LVKD+λ2LTKD 上式中,λ1与λ2为损失平衡系数; 第二阶段为: 步骤6:额外构建了背景文本集合Tbg,并将Tbg与所有第一视角类别文本TC′LS共同输入训练好的文本编码器ψT·,并将第一视角图像I输入训练好的视觉编码器ψV·,基于视觉与文本特征计算跨模态相似度以得到最终的分类预测值,并基于计算的分类预测值,使用梯度加权类激活谱映射方法,得到每一类对应的类激活谱并进行细化,最终得到第一视角分割伪掩码; 第三阶段为: 步骤7:将生成的第一视角分割伪掩码作为训练分割模型的标签,并对通用语义分割模型DeepLabV3进行训练,得到最终可部署的第一视角视觉场景分割模型。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人电子科技大学,其通讯地址为:611731 四川省成都市高新区(西区)西源大道2006号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。