杭州电子科技大学龚海波获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉杭州电子科技大学申请的专利一种基于层次化选择框架的视频问答建模方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119884417B 。
龙图腾网通过国家知识产权局官网在2025-10-10发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510077986.0,技术领域涉及:G06F16/783;该发明授权一种基于层次化选择框架的视频问答建模方法是由龚海波;颜成钢;李亮;孙垚棋;盛熙淳;高宇涵设计研发完成,并于2025-01-17向国家知识产权局提交的专利申请。
本一种基于层次化选择框架的视频问答建模方法在说明书摘要公布了:本发明公开了一种基于层次化选择框架的视频问答建模方法,其特征在于,首先进行视频数据和文本数据预处理,得到视频片段特征、物体特征、物体特征、问题特征、问题词特征和候选答案特征作为视频问答模型的输入;根据时间跨度和空间跨度从大到小层次化地选择视频片段特征、视频帧特征和物体特征,然后与问题特征进行特征融合,实现对答案的预测。本发明方法可以和不同的预训练模型结合训练与微调,即插即用;能够层次化地选择与问题相关的视频片段、视频帧和物体特征,实现问题相关关键特征的提取,以及对无关冗余信息的过滤。
本发明授权一种基于层次化选择框架的视频问答建模方法在权利要求书中公布了:1.一种基于层次化选择框架的视频问答建模方法,其特征在于,具体按照以下步骤实施: 步骤1:视频数据预处理,得到视频片段特征、视频帧特征和物体特征; 步骤2:文本数据预处理,得到问题特征、问题词特征和候选答案特征; 步骤3:将以上得到的视频片段特征、视频帧特征、物体特征、问题特征、问题词特征以 及候选答案特征作为视频问答模型的输入;这些特征在输入视频问答模型后首先分别经过 一层线性层,将视频片段特征、视频帧特征、物体特征、问题特征、问题词特征以及候选答案 特征的特征维度统一映射到维; 步骤4:视频片段选择;通过视频问答模型的视频片段选择模块对线型层输出的问题特 征、视频片段特征、视频帧特征和物体特征进行处理,得到选择的视频片段特征、视频帧特征和物体特征; 步骤5:视频帧选择;将问题特征、通过视频片段选择模块选择得到的视频帧特征和物体特征输入到视频帧选择模块中,得到选择的视频帧特征和物体特征; 步骤6:物体选择;将问题特征和通过视频帧选择模块选择得到的物体特征输入 到物体选择模块中,得到选择的物体特征; 步骤7:对选择得到的多粒度视觉特征,和问题词特征进行跨模态交互与融合; 步骤8:对步骤7得到的融合输出实施平均池化操作,得到全局融合特征;将全局融合特征与候选答案特征计算相似度,并将相似度最高的候选答案作为最终的答案预测; 步骤1具体操作如下: 1-1对于具有n个视频,每个视频包含若干个问题与答案的数据集;设置采样帧数为,对个视频进行平均采样,并将采样得到的视频帧转化成宽为、高为且通道数为3 的RGB图像,输出大小为的视频帧数据; 1-2选取一个经过预训练的视觉编码器对视频帧数据中的每一张大小为 的图像进行特征提取;设特征维度为,则视频帧数据经特征提取得到大小为 的视频帧特征;设置片段长度为,则片段数为,其中取整数;此时,视频 帧特征能够进一步划分成大小为的; 1-3对于大小为的视频帧特征,在维度使用平均池化的方法将其转 化成大小为的视频片段特征; 1-4设置检测目标数,选取一个经过预训练的目标检测模型对视频帧数据中的 每一张大小为的图像进行目标检测,将检测到的目标物体区域转为与视频帧同样 大小的图像,得到大小为的物体数据;使用视觉编码器对物体数据中 的每一个物体提取特征,得到大小为的物体特征。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人杭州电子科技大学,其通讯地址为:310018 浙江省杭州市钱塘区白杨街道2号大街1158号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。
请提出您的宝贵建议,有机会获取IP积分或其他奖励