杭州电子科技大学余宙获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉杭州电子科技大学申请的专利基于多尺度时空注意力网络的视频场景图生成方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN117115706B 。
龙图腾网通过国家知识产权局官网在2025-09-19发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202311048203.3,技术领域涉及:G06V20/40;该发明授权基于多尺度时空注意力网络的视频场景图生成方法是由余宙;王朱佳;俞俊设计研发完成,并于2023-08-21向国家知识产权局提交的专利申请。
本基于多尺度时空注意力网络的视频场景图生成方法在说明书摘要公布了:本发明公开了一种基于多尺度时空注意力网络的视频动态场景图生成方法。本发明步骤如下:1、数据集的划分,2、使用预训练好的目标检测网络对视频帧提取特征,并进行目标分类,3、构建目标的语言特征,4、构建人物关系对的综合特征,并存储为稀疏矩阵,5、构建多尺度时空注意力网络,6、构建预训练模型增强的分类网络,7、损失函数,8、训练模型、9、网络预测值计算。本发明提出了一种多尺度时空注意力网络,创新性地在经典的Transformer架构基础上引入了“多尺度”建模思想,以实现对视频动态细粒度语义的精确建模。
本发明授权基于多尺度时空注意力网络的视频场景图生成方法在权利要求书中公布了:1.基于多尺度时空注意力网络的视频场景图生成方法,其特征在于包括如下步骤: 步骤1:对数据集进行划分; 步骤2:使用预训练好的目标检测网络对视频帧提取特征,并进行目标分类;对于检测到的每个物体预测其类别,作为模型的先验条件; 步骤3:构建目标的语言特征 将步骤2中的分类结果根据预先训练好的词向量模型将其转换为包含语义信息的词向量; 步骤4:构建人物关系对的综合特征,并存储为稀疏矩阵 对于步骤2和步骤3获取到的特征进行主语宾语之间成对的拼接,包括主语的视觉特征、宾语的视觉特征、主语的语言特征、宾语的语言特征以及主语和宾语之间的联合特征; 对于一个视频中的所有帧,将其出现的主语和宾语之间成对的特征存储到一个稀疏矩阵中,矩阵的行数代表视频帧数,矩阵的列数代表的物体的类别数量,每一列的含义是同一个物体与人之间的关系对; 步骤5:构建多尺度时空注意力网络 将步骤4的综合特征输入到多尺度时空注意力网络,该网络包括:空间编码器和时间解码器;空间编码器又包含了局部空间编码和全局空间编码,时间解码器包含了长期时间解码和短期时间解码; 步骤6:构建预训练模型增强的分类网络 将步骤5的输出结果输入到预训练模型增强的分类网络中进行最终的关系分类,以增强视觉语言的交互理解;最终输出注意关系类别预测向量、位置关系类别预测向量以及接触关系类别预测向量; 步骤7:损失函数 对于步骤2的物体分类,将预测向量和目标向量输入到损失函数中,计算损失值;对于步骤6关系分类,将其输出的3类预测向量分别同对应的目标向量一起输入到相应的损失函数中,并分别输出3个损失值; 步骤8:训练模型 根据步骤7中的损失函数产生的损失值利用反向传播算法对步骤6中神经网络的模型参数进行梯度回传,不断优化,直至整个网络模型收敛,即模型的训练损失降到一定范围不再继续下降; 步骤9:网络预测值计算 根据步骤6输出的预测向量进行排序,根据不同的评判标准抉择最终的分类预测结果。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人杭州电子科技大学,其通讯地址为:310018 浙江省杭州市钱塘区白杨街道2号大街1158号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励