天津大学吕卫获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉天津大学申请的专利一种基于多模态信息聚合的短视频分类方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116189047B 。
龙图腾网通过国家知识产权局官网在2025-07-25发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310006748.1,技术领域涉及:G06V20/40;该发明授权一种基于多模态信息聚合的短视频分类方法是由吕卫;林家欣;褚晶辉设计研发完成,并于2023-01-04向国家知识产权局提交的专利申请。
本一种基于多模态信息聚合的短视频分类方法在说明书摘要公布了:本发明涉及一种基于多模态信息聚合的短视频分类方法,包括以下步骤:提取出短视频的视觉、轨迹、声音三种模态特征;引入一组并行的图卷积网络,将三种模态特征经过处理后获得的类别嵌入矩阵作为图卷积的初始节点特征输入,不同的图卷积网络的相关矩阵分别代表各个节点间模态共享和各模态特有的两种标签关联模式,利用图卷积的相关矩阵对节点进行更新,获得更新后的节点特征;多模态信息聚合:引入带有聚合瓶颈项的序列自注意力机制,以特定方向聚合并浓缩来自各个模态的重要信息,同时丢弃冗余信息,得到融合后的类别表示;将获得的最终类别表示输入分类器获得短视频的标签预测分数,采用多标签分类损失函数来指导网络寻找模型最优解。
本发明授权一种基于多模态信息聚合的短视频分类方法在权利要求书中公布了:1.一种基于多模态信息聚合的短视频分类方法,所述方法包括以下步骤: 步骤一:从所用数据集中预提取出短视频的视觉、轨迹、声音三种模态特征,设三种模态特征分别为视觉特征xv、轨迹特征xt、声音特征xa; 步骤二:引入一组并行的图卷积网络,将三种模态特征经过处理后获得的类别嵌入矩阵作为图卷积的初始节点特征输入,不同的图卷积网络的相关矩阵分别代表各个节点间模态共享和各模态特有的两种标签关联模式,利用图卷积的相关矩阵对节点进行更新,获得更新后的节点特征,方法如下: 1获得各模态特有图卷积网络的初始节点特征:将三种模态特征xv,xt,xa分别输入3个结构相同的编码器得到编码后的模态表示uv,ut,ua,然后将um,m∈{v,t,a},按行扩展得到各模态的类别嵌入矩阵Zv,Zt,Za作为各模态特有图卷积网络的初始节点特征; 2获得模态共享图卷积网络的初始节点特征:通过卷积操作融合三个模态的类别嵌入矩阵Zv,Zt,Za获得,公式为: 其中,δ·为Sigmoid激活函数,与为卷积层的权重矩阵,C表示图节点数,在此处等于短视频标签个数,dm为类别嵌入的维度数; 3将Zv,Zt,Za和Zs分别作为相应的图卷积网络的初始节点特征V,带入下式,获得更新后的节点相应的各个特征: 其中,Vu包含更新后的节点相应的各个特征,A∈RC×C为相关矩阵,描述了标签之间的关联性,为状态权重更新矩阵,D为V的特征维度数,Du为Vu的特征维度数,LeakyReLU·为非线性激活函数; 将各模态特有的图卷积网络所得更新后的节点特征记为增强后的各模态类别嵌入Hm,m∈{v,t,a},其中v、t、a分别表示视觉、轨迹和声音模态;将模态共享图卷积网络所得更新后的节点特征记为模态共享的类别嵌入Hs,即更新后的节点特征Vu包含Hm,m∈{v,t,a},Hs; 步骤三:多模态信息聚合:引入带有聚合瓶颈项的序列自注意力机制,以特定方向聚合并浓缩来自各个模态的重要信息,同时丢弃冗余信息,得到融合后的类别表示; 步骤四:将获得的最终类别表示输入分类器获得短视频的标签预测分数,采用多标签分类损失函数来指导网络寻找模型最优解。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人天津大学,其通讯地址为:300072 天津市南开区卫津路92号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。