合肥工业大学卢天一获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉合肥工业大学申请的专利一种基于动作指导的视频描述方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115376039B 。
龙图腾网通过国家知识产权局官网在2025-10-28发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210829622.X,技术领域涉及:G06V20/40;该发明授权一种基于动作指导的视频描述方法是由卢天一设计研发完成,并于2022-07-15向国家知识产权局提交的专利申请。
本一种基于动作指导的视频描述方法在说明书摘要公布了:本发明公开了一种基于动作指导的视频描述方法,包括以下步骤:S1:视频全局与局部特征提取,通过卷积神经网络与采样回归提取视频的全局与局部视觉特征,具体步骤为:提取视频的全局特征:对每个原始视频采样获得图像序列,利用2D卷积神经网络对图像序列进行处理,使用末端池化层输出作为静态特征,对原始视频分割获得片段,利用3D卷积神经网络对片段序列处理获得动态特征,与静态特征一起作为视频全局特征,提取视频的局部特征:对片段提取其中间帧,利用Faster‑RCNN作为目标检测器,提取视频的目标对象区域与坐标,利用自注意力机制融合二者作为视频局部特征,S2:主语对象及谓语动作的语义生成,根据S1提取的全局与局部视觉特征。
本发明授权一种基于动作指导的视频描述方法在权利要求书中公布了:1.一种基于动作指导的视频描述方法,其特征在于,包括以下步骤: S1:视频全局与局部特征提取; 通过卷积神经网络与采样回归提取视频的全局与局部视觉特征,具体步骤为: 提取视频的全局特征:对每个原始视频采样获得图像序列,利用2D卷积神经网络对图像序列进行处理,使用末端池化层输出作为静态特征,对原始视频分割获得片段,利用3D卷积神经网络对片段序列处理获得动态特征,与静态特征一起作为视频全局特征; 提取视频的局部特征:对片段提取其中间帧,利用Faster-RCNN作为目标检测器,提取视频的目标对象区域与坐标,利用自注意力机制融合二者作为视频局部特征; S2:主语对象及谓语动作的语义生成; 根据S1提取的全局与局部视觉特征,通过多头注意力机制与多层感知机,捕捉视觉信息间的全局依赖,基于局部视觉特征生成主语词向量,基于主语词向量与全局特征中的动态全局特征生成谓语词向量; S3:基于动作指导的描述生成; 根据S1中所提取的全局视觉特征作为描述生成模型的输入,根据S2所生成的动作词向量,以其为指导对局部视觉特征进行筛选以获得当前目标生成词汇对应的局部对象特征,利用门控机制按权重融合生成模型的输出与其对应的局部对象特征以生成相应的句子描述; 所述S3描述生成中,循环神经网络的隐层输出在S1和S2中所生成的局部特征与动作词向量经门控单元多次交互融合,其过程如下:首先,根据S1提取的全局视觉特征与已生成的描述词向量级联输入循环神经网络中,输出的隐层变量与S2生成的动作词向量经线性层映射嵌入至同一1024维变量中,所述多头注意力机制,以该变量为Q,根据S1提取的局部视觉特征为K,V计算获得当前视频主题动作对应的局部对象信息,局部对象信息与隐层变量经线性层映射至同一特征空间,与隐层变量进行GLU门控运算,其过程如公式所示: 其中,代表t时刻下全局特征经长短期记忆网络解码产生的隐层变量,代表t时刻下经动作语义与隐层变量查询加权平后的局部特征, 在门控网络的作用下,通过对与进行元素乘法产生权重,二者基于权重相加并输出概率分布,选择概率最大的词汇作为结果,yj代表上一时刻产生的词汇,yt代表当前输出生成的描述。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人合肥工业大学,其通讯地址为:230001 安徽省合肥市屯溪路193号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励