安徽大学李成龙获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉安徽大学申请的专利基于提示微调预训练大模型的行人属性识别方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116259075B 。
龙图腾网通过国家知识产权局官网在2025-07-25发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310081570.7,技术领域涉及:G06V40/10;该发明授权基于提示微调预训练大模型的行人属性识别方法是由李成龙;金建东;王逍;汤进;章程设计研发完成,并于2023-01-16向国家知识产权局提交的专利申请。
本基于提示微调预训练大模型的行人属性识别方法在说明书摘要公布了:一种基于提示微调预训练大模型的行人属性识别方法,属于计算机视觉技术领域,解决现有技术中没有充分利用行人图像与属性标签之间的关系而导致的次优以及泛化能力差的问题。本发明采用CLIP的视觉和文本编码器提取图像特征和属性特征,通过多模态Transformer模块对两个模态特征融合后,经过前馈网络得到预测结果,通过将行人属性识别问题建模为视觉语言融合问题,使用预训练的视觉语言大模型作为主干网络,提取模态间联系更好的视觉和文本特征,再通过多模态的Transformer建模视觉和文本之间的联系,充分利用了属性语义信息,并且可以看出通过提示微调的方式保留了预训练大模型较好的泛化能力,模型实用性更强。
本发明授权基于提示微调预训练大模型的行人属性识别方法在权利要求书中公布了:1.基于提示微调预训练大模型的行人属性识别方法,其特征在于,所述的预训练大模型包括:CLIP视觉编码器、CLIP文本编码器、多模态Transformer模块和分类器模块;所述的CLIP视觉编码器以及CLIP文本编码器是视觉语言模型CLIP的视觉和文本特征提取器;所述的多模态Transformer模块通过多头自注意力机制对属性进行自适应融合和长距离建模,经过多层Transformer编码器层后得到融合后的特征;所述的分类器模块采用FFN,用于得到每个属性的得分并输出分类结果; 所述的行人属性识别方法包括以下步骤: 步骤一:对输入的待分类的行人图像和需要评估的行人属性进行预处理; 步骤二:将待分类的行人图像和需要评估的行人属性分别送入预训练大模型中,从而分别得到视觉特征和文本特征; 得到所述视觉特征的方法如下:在CLIP视觉编码器每一层的Transformer编码器层的输入令牌中都加入多个可学习的提示令牌,位置是在分类令牌和图像块令牌之间,以此来微调CLIP视觉编码器,经过多层Transformer编码器层后得到视觉特征; 得到所述文本特征的方法如下:将分割和扩充后属性句子令牌化后,经过嵌入层后得到文本的嵌入并送入CLIP文本编码器,在CLIP文本编码器每一层的Transformer编码器层的输入令牌中都加入多个可学习的提示令牌,位置是在文本令牌之后,以此来微调CLIP文本编码器,经过多层Transformer编码器层后得到文本特征; 步骤三:将得到视觉特征和文本特征连接后送入多模态Transformer模块,对连接的视觉特征和文本特征进行模态融合和信息交互,得到融合交互后的特征; 步骤四:取出其中文本特征对应位置的融合后的令牌Token,送入分类器后得到每个属性的得分; 步骤五:判断得分是否大于阈值,大于阈值的属性视为属性存在,否则视为属性不存在,每个属性均与阈值进行对比后输出预测结果。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人安徽大学,其通讯地址为:230601 安徽省合肥市经开区九龙路111号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。