Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 积分商城 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 南京理工大学项欣光获国家专利权

南京理工大学项欣光获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉南京理工大学申请的专利基于测试时间视觉代理调优的零样本视频分类方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119851173B

龙图腾网通过国家知识产权局官网在2025-11-21发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411913237.9,技术领域涉及:G06V20/40;该发明授权基于测试时间视觉代理调优的零样本视频分类方法是由项欣光;金榕;严锐;杜晓宇设计研发完成,并于2024-12-24向国家知识产权局提交的专利申请。

基于测试时间视觉代理调优的零样本视频分类方法在说明书摘要公布了:本申请提供基于测试时间视觉代理调优的零样本视频分类方法,通过利用支持集构建视觉代理并同时微调视觉提示和文本提示,实现了对视频动作的零样本动作识别,避免了视频分类任务中视觉与文本两个模态间的语义差距问题。视觉代理构建模块和双模态提示协同调优模块组成零样本学习框架TPC。在视觉代理构建模块中利用预训练的视频编码器提取支持集视频特征来构建视觉代理,并向采样的支持集视频添加可学习的视觉提示使视觉代理可调。在双模态提示协同调优模块中通过最小化视觉代理和文本代理预测概率分布之间的KL散度同时微调可学习的视觉提示和文本提示,利用文本模态和视觉模态的信息优化视觉代理,提高了视觉代理的零样本分类性能。

本发明授权基于测试时间视觉代理调优的零样本视频分类方法在权利要求书中公布了:1.基于测试时间视觉代理调优的零样本视频分类方法,其特征在于,所述方法包括: 步骤1:对一个测试视频以及给定的一组动作类别,将可学习的文本提示与每个动作类别组成类别描述文本,并利用预训练的视觉语言模型分别提取测试视频的视觉特征与类别描述文本的文本特征; 步骤2:对给定的一组动作类别,通过大语言模型LLM为每个动作类别生成多个不同的动作描述;之后利用生成的动作描述通过文本到视频生成模型T2V为每个动作类别生成一批视频;接下来利用预训练的视觉语言模型计算生成的视频属于的真实类别的分数,为每个动作类别选择分数最高的K个视频来构建支持集; 步骤3:将支持集传入视觉代理构建模块,得到用于预测的视觉代理; 步骤4:利用双模态提示协同调优模块同时调整可学习的文本和视觉提示,从而针对不同的测试视频实现对视觉代理的优化; 步骤5:采用经过优化后的视觉代理进行推理,实现零样本视频分类; 步骤1包括: 对于输入视频Vtest采样的T张图像利用预训练的视觉语言模型的视频编码器提取对应特征维度为d的视觉特征 其中Ev是预训练视觉语言模型的视频编码器; 对于具有C个类别的动作类别集Y={y0,y1,…,yc,},将可学习的文本提示pt与每个动作类别组成类别描述文本,并利用预训练的视觉语言模型的文本编码器提取对应特征维度为d的文本特征作为文本代理 其中Et是预训练视觉语言模型的文本编码器; 视觉代理构建模块的执行过程如下: 步骤301:对支持集S中的每个支持视频,采样TS张图像,将可学习的视觉提示pv添加到采样的图像上,得到支持集视频图像; 步骤302:对采样得到的支持集视频图像,利用预训练的视频编码器提取视觉特征并进行拼接起来构成视觉代理 其中Fi表示第i个支持视频的视觉特征,vi表示支持集中第i个支持视频,Concat·代表向量的拼接操作,C和K分别表示类别的数量以及每个类别对应的支持集样本数,d为特征维度; 双模态提示协同调优模块的执行过程如下: 步骤401:对于每个测试视频Vtest,利用AugMix数据增强方法增强M次,得到M个增强视图AugiVtest,i∈[1,M]; 步骤402:对经过步骤401得到的M个增强视图,利用预训练的视频编码器提取视觉特征: 其中,表示测试视频的第i个增强视图的视觉特征; 步骤403:对于经过步骤402得到的测试视频增强视图的视觉特征与步骤302得到的视觉代理Zv,计算测试视频每个增强视图使用视觉代理预测的概率分布pvpY|AugiVtest: 其中Softmax·代表Softmax函数运算,τv是视觉代理进行Softmax计算时使用的温度参数,β是调节锐度的参数,为独热编码的支持集标签; 步骤404:对于经过步骤402得到的测试视频增强视图的视觉特征与步骤1得到的文本代理Zt,计算测试视频每个增强视图使用文本代理预测的概率分布ptpY|AugiVtest: 其中τt是文本代理进行Softmax计算时使用的温度参数; 步骤405:对于计算得到的测试视频每个增强视图使用视觉代理预测的概率分布pvpY|AugVtest和使用文本代理预测的概率分布ptpY|AugVtest,利用最小化视觉代理预测概率分布与文本代理预测概率分布之间的KL散度的方法在测试时针对测试视频来进行动态调整可学习的视觉提示p和文本提示p 其中,DKL·代表两个概率文本之间的KL散度计算; 步骤406:利用最小化视觉代理预测概率分布与文本代理预测概率分布之间的KL散度得到微调后的可学习的视觉提示获得最终用于预测的视觉代理 其中,表示在的辅助下提取的第i个支持视频的视觉特征。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人南京理工大学,其通讯地址为:210094 江苏省南京市孝陵卫200号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。