当前位置 : 首页 > 专利喜报 > 珠海澳大科技研究院;珠海华发实体产业研究院有限公司吴湧获国家专利权

珠海澳大科技研究院;珠海华发实体产业研究院有限公司吴湧获国家专利权

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

龙图腾网获悉珠海澳大科技研究院;珠海华发实体产业研究院有限公司申请的专利一种基于语义消歧结构化编码的视频描述方法获国家发明授权专利权，本发明授权专利权由国家知识产权局授予，授权公告号为：CN118279803B 。

龙图腾网通过国家知识产权局官网在2026-03-20发布的发明授权授权公告中获悉：该发明授权的专利申请号/专利号为：202410564168.9，技术领域涉及：G06V20/40；该发明授权一种基于语义消歧结构化编码的视频描述方法是由吴湧;唐远炎;田晋宇;金吉设计研发完成，并于2024-05-08向国家知识产权局提交的专利申请。

本一种基于语义消歧结构化编码的视频描述方法在说明书摘要公布了：本发明属于计算机视觉领域，公开了一种基于语义消歧结构化编码的视频描述方法。本发明提出通过引入知识图谱等先验知识来构造视频中对象之间的关系概念语义图，以获得更深层次理解视频语义关系的结构化编码；在概念语义图的基础上，根据视频场景语义的指导，从同一对对象的多种关系中动态学习出最符合当前视频语境的关系来消除对象之间存在的语义歧义问题，以达到语义消歧的结构化编码；提出跨域指导关系学习策略，它通过解析得到描述语句中各对象及其关系来拟合模型中概念语义图的学习，以达到更好的学习视频中各对象及其之间关系。本发明方法可以实现更为准确、全面的视频描述。

本发明授权一种基于语义消歧结构化编码的视频描述方法在权利要求书中公布了：1.一种基于语义消歧结构化编码的视频描述方法，包括如下步骤： S1构建概念语义图：利用知识图谱筛选出设定的视觉概念集及视觉概念之间的关系权值，分割出符合设定的子知识图谱；实例化子知识图谱，即为每个视频样本中的帧构建概念语义图，得到每个视频的概念语义图序列；具体包括：从描述数据集语料库中选取出频率最高的前个实体词组成对象集，通过目标检测方法检测得到视频帧序列中每帧的各对象概率得分，进而获得概率得分矩阵以表示视频中对象节点的动态变化，其中，表示1至帧中第n帧里对象集里各对象得分；累加同一对对象节点之间全部关系权值作为该对对象节点权值以组成边矩阵，其中KG表示知识图谱的简称，即若任意两个对象节点在知识图谱中存在直接相连的边，则为对应的边值累加和，否则为0，得到每个视频的概念语义图序列； S2构建基于语义消歧的概念语义图：在概念语义图的基础上，通过视频的场景语义信息去指导模型学习语义消歧对象节点之间的关系，让模型从每一对对象节点的多种关系中动态的学习得到符合当前语境的关系，从而获得语义消歧的概念语义图，具体包括：以所选对象节点对之外的其他对象节点作为场景语义，，表示第帧中图对象节点特征矩阵，并利用注意力机制学习所选对象节点对在不同关系中的权重，，"k"表示K种关系中的第k个；将学习到的对象节点对在第种关系中的权重值，相乘对应关系，聚合转换成关系向量作为对象节点的新权重值，，其中，为关系在知识图谱中的权重，为关系的词向量，使用新权重值更新得到边矩阵；以更新后的边矩阵来实现多关系动态学习，得到语义消歧的概念语义图； S3基于概念语义图的图卷积网络学习：将概念语义图序列通过基于概念语义图的图卷积网络进行时序演变过程的学习，实现概念语义图的学习推理，得到视频帧结构化编码序列，具体包括：利用得分融合网络融合视频得分矩阵，，其中，表示第帧得分对第帧得分的影响，其中和表示1至T帧中的不同帧；将融合后的得分矩阵与对应对象词向量相乘作为视频的图对象节点特征序列，，其中，表示第帧中图对象节点特征矩阵，，表示对象集的词向量，表示融合后第帧中各对象融合得分；通过图卷积网络模型方法对概念语义图进行结构化的信息传播以得到，，将其网络更新后的节点特征聚合成帧的结构化编码特征，最终得到视频帧结构化编码序列；函数、、是1×1的卷积网络； S4跨域指导关系学习：将人工标注的描述语句解析成表达对象及其关系的语句场景图，通过语句场景图来指导和约束概念语义图的学习，具体包括：将视频的标注描述语句解析成语句场景图，其中，SG表示描述语句场景图，并利用场景图编码模型方法对语句场景图进行编码，得到编码后的输出向量，；将图神经网络学习得到的概念语义图序列融合为视频的输出向量；把编码后的向量与视频的输出向量投影到同一空间得到转置后的语句场景图向量和转置后的视频概念语义图融合向量，并求和的相似性来作为损失函数的一部分，指导和约束概念语义图的学习，；，；和为可学习矩阵； S5语言模型解码：将视觉和音频特征分别输入到两个Transformer模型，并将得到的输出特征进行串联以生成描述语句，具体包括：将视频帧特征序列与结构化编码特征序列进行串联作为视频的视觉编码特征序列，以补充帧的全局和动作信息；考虑到视频是多模态数据，还加入音频特征序列；将视觉特征和音频特征分别输入到两个Transformer模型，并将得到的视觉输出特征和音频输出特征进行串联以生成描述语句；，，，其中，是视觉编码器Transformer，是音频编码器Transformer，是特征串联，是全连接层；其中，步骤S4和S5中，损失函数优化的步骤包括：描述语句损失采用的是交叉熵损失，计算公式如下：，其中，是时间步之前生成的词序列，表示词向量，是可学习矩阵；关系学习损失，计算公式如下：，其中，是描述语句场景图编码向量与对应视频结构化编码特征的余弦距离；模型总损失由以上两部分组成：，其中，和是两项损失占比的超参数。

如需购买、转让、实施、许可或投资类似专利技术，可联系本专利的申请人或专利权人珠海澳大科技研究院;珠海华发实体产业研究院有限公司，其通讯地址为：519031 广东省珠海市横琴新区环岛东路1889号创意谷8栋；或者联系龙图腾网官方客服，联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

请提出您的宝贵建议，有机会获取IP积分或其他奖励

珠海澳大科技研究院;珠海华发实体产业研究院有限公司吴湧获国家专利权

热门推荐

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务