浙江大学;浙江大学滨江研究院尹建伟获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉浙江大学;浙江大学滨江研究院申请的专利服务监管场景下视频表征融合方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119888580B 。
龙图腾网通过国家知识产权局官网在2025-08-08发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510348096.9,技术领域涉及:G06V20/40;该发明授权服务监管场景下视频表征融合方法是由尹建伟;沙磊刚;赵天成;陈明帅设计研发完成,并于2025-03-24向国家知识产权局提交的专利申请。
本服务监管场景下视频表征融合方法在说明书摘要公布了:本发明公开了一种服务监管场景下视频表征融合方法,包括如下步骤:步骤一,选择训练数据,对于较短的视频选择Panda70M数据集,对于较长的视频选择Charades、CharadesEgo、ActivityNet和Valley的caption数据;步骤二,首先获取featurecube,然后创建帧表征融合模块,通过帧表征融合模块使用静态的注意力掩码,让每个Query只需关注featurecube中固定的局部的token,或者使用动态的注意力掩码,让每个Query关注的子立方体的位置按需变化;步骤三,以Q‑Former为基础,基于步骤一选择的训练数据创建三个损失函数进行联合训练,完成视频表征融合。本发明的服务监管场景下视频表征融合方法,通过步骤一至步骤三的设置,便可简单有效的实现视频表征的融合了。
本发明授权服务监管场景下视频表征融合方法在权利要求书中公布了:1.一种服务监管场景下视频表征融合方法,其特征在于:包括如下步骤: 步骤一,选择训练数据,对于较短的视频选择Panda70M数据集,对于较长的视频选择Charades、CharadesEgo、ActivityNet和Valley的caption数据; 步骤二,首先获取featurecube,然后创建帧表征融合模块,通过帧表征融合模块使用静态的注意力掩码,让每个Query只需关注featurecube中固定的局部的token,或者使用动态的注意力掩码,让每个Query关注的子立方体的位置按需变化; 步骤三,以Q-Former为基础,基于步骤一选择的训练数据创建三个损失函数进行联合训练,完成视频表征融合模块的训练,之后通过完成训练的视频表征融合模块对服务监管场景下的视频进行表征融合;所述步骤二中获取featurecube的具体方式为:首先对视频进行预处理,对视频数据进行均匀抽帧并resize到统一的尺度,然后分别将视频帧送到图片编码器进行编码,得到每个视频帧的表征;所述步骤二中构建的表征融合模块是一个多层transformer模型,其中包含自注意力和交叉注意力机制,融合过程中将Q个可学习的Query作为输入,featurecube作为key和value,通过交叉注意力层,逐步将帧表征融合到Q个可学习的Query中,并通过Query之间的自注意力,完成帧表征的相互融合;所述步骤二中使用的静态的注意力掩码为一个维度为(S*T*T)的maskcube,具体为将形状为(M*N*N)的featurecube切分成很多子cube,每个子cube大小为(S*T*T),一共(MS*NT*NT)=Q个子立方体,每个可学习的Query关注一个子立方体;所述步骤二中使用的动态的注意力掩码具体如下:将transformer交叉注意力层的Query输出到一个线性层中,将Query的隐状态维度从H映射到3,分别表示当前Query关注的子立方体在featurecube的三个维度上偏移量,那么下一层transformer在做交叉注意力的时候,关注的子立方体就会按照这个偏移量移动,从而实现动态的注意力掩码,让模型按照需要选择子立方体的位置。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人浙江大学;浙江大学滨江研究院,其通讯地址为:310000 浙江省杭州市西湖区余杭塘路866号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。