中国科学技术大学杨勋获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉中国科学技术大学申请的专利一种基于层次化情感特征编码的视频情感描述方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN117292297B 。
龙图腾网通过国家知识产权局官网在2025-07-11发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202311251349.8,技术领域涉及:G06V20/40;该发明授权一种基于层次化情感特征编码的视频情感描述方法是由杨勋;宋培培;郭丹;郝艳宾;汪萌设计研发完成,并于2023-09-26向国家知识产权局提交的专利申请。
本一种基于层次化情感特征编码的视频情感描述方法在说明书摘要公布了:本发明公开了一种基于层次化情感特征编码的视频情感描述方法,其步骤包括:1视频编码;2层次化情感特征编码;3基于多模态上下文的文本生成;4在视频情感描述数据集上的模型参数优化。本发明能够提取层次化的细粒度视频情感线索,并过滤不相关情感词对模型的干扰,并从视觉、文本、情感三种模态中提取丰富的上下文信息,通过三种与情感相关的损失函数,分别约束情感描述、层次化情感编码和情感对比过程的准确性,以生成语义和情感正确的视频情感描述,从而能提高情感视频描述模型的准确性和鲁棒性。
本发明授权一种基于层次化情感特征编码的视频情感描述方法在权利要求书中公布了:1.一种基于层次化情感特征编码的视频情感描述方法,其特征在于,是按照如下步骤进行: 步骤1、视频编码: 从视频情感描述数据集中获取任意一个视频V及其情感描述,并从V中均匀采样出N个视频帧其中,fi为第i个采样帧;利用预训练的CLIP视觉编码器提取N个采样帧的特征,得到所述视频V的视觉特征其中,vi为所述第i个采样帧fi的特征; 步骤2、层次化情感特征编码: 步骤2.1、获取情感类别集合Ec={x1,…,xc,…,xC},其中,xc表示第c种情感类别,C为情感类别的总数; 获取情感类别集合Ec中每个情感类别对应的若干情感词构成情感词集合Ew={X1,…,Xc,…,XC};其中,Xc表示第c种情感类别对应的情感词集合,且xc,j为Xc中的第j个情感词,Mc为Xc中的情感词总数; 步骤2.2、通过预训练的GloVe网络获取情感词集合Ew中每个情感词的文本特征 其中,em为第m个情感词xm的文本特征;M表示情感词集合Ew中的情感词总数,且 步骤2.3、将文本特征Fe作为Transformer网络的键key和值value,将视频特征Fv作为Transformer网络的查询query,从而利用式1得到Transformer网络输出的融合特征Fe'; Fe'=Transformer[Fv,Fe,Fe]1 将融合特征Fe'依次输入到一个平均池化层和一个全连接层从而利用式2得到视频V在情感类别集合Ec上的概率分布Pc; 式2中,全连接层的输出维度为C; 步骤2.4、零初始化一个掩码矩阵其中,gi,m表示掩码矩阵G中第i行第m列的元素值; 定义一个参数K; 获取概率分布Pc中最大的K个值对应的情感类别,从而得到相关情感类别集合E′c; 获取相关情感类别集合E′c对应的相关情感词集合E′w; 如果情感词集合Ew中的第m个情感词xm在相关情感词集合E′w中,则令掩码矩阵G中的否则,令 步骤2.5、将文本特征Fe作为另一个Transformer网络的键key和值value,将视频特征Fv作为另一个Transformer网络的查询query,将掩码矩阵G作为另一个Transformer网络的掩码mask,从而利用式3得到另一个Transformer输出的情感特征Fe”; Fe”=TransformerFv,Fe,Fe,G3 将情感特征Fe”依次输入到另一个平均池化层和另一个全连接层利用式4得到视频V在情感词集合Ew上的概率分布Pw; 式4中,全连接层的输出维度为M; 步骤3、基于多模态上下文的文本生成: 步骤3.1、定义当前时刻为t,并初始化t=0; 步骤3.2、利用预训练的GloVe网络获取前t时刻已生成单词的文本特征其中,wl是第l个已生成单词的文本特征; 利用式5获取所述视频V的第i个视觉特征vi与第l个已生成单词的文本特征wl在t时刻的语义相关性从而得到t时刻的对齐矩阵 式5,ua,Ua,Ha,ba均为4个待学习参数;表示转置;tanh表示激活函数; 步骤3.3、利用式6获得视觉对齐的文本特征其中,wit'为t时刻第i个视觉对齐的文本特征; Wt′=softmaxAtWt6 式6中,softmax表示归一化函数; 将视频特征Fv、情感特征Fe”、视觉对齐的文本特征Wt′拼接为特征矩阵其中,cit表示t时刻第i个拼接特征; 步骤3.4、随机初始化一个LSTM网络; 利用式7得到t时刻第i个拼接特征cit与LSTM网络在t-1时刻的隐藏状态ht-1的注意力权重θit;从而利用式8得到t时刻的联合上下文向量ct′; 式10中,tθ,Uθ,Hθ,bθ均为LSTM网络中4个待学习参数; 步骤3.5、利用式9获取LSTM网络在t时刻的隐藏状态ht,从而利用式10得到t时刻视频情感描述模型的输出概率Pt; ht=LSTM[ct,wt-1],ht-19 Pt=softmaxWoht10 式10中,Wo为LSTM网络中待学习的权重矩阵; 步骤4、构建由情感交叉熵损失值层次化情感分类损失值情感对比损失值之和所构成的总损失值并利用随机梯度下降法对总损失值进行优化求解,以优化模型参数,当达到最小时,得到视频情感描述数据集上的最优模型,用于实现对视频的情感描述预测。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中国科学技术大学,其通讯地址为:230026 安徽省合肥市包河区金寨路96号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。