当前位置 : 首页 > 专利喜报 > 嘉兴大学李永刚获国家专利权

嘉兴大学李永刚获国家专利权

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

龙图腾网获悉嘉兴大学申请的专利基于多模态记忆知识的密集视频描述方法获国家发明授权专利权，本发明授权专利权由国家知识产权局授予，授权公告号为：CN120318740B 。

龙图腾网通过国家知识产权局官网在2025-11-14发布的发明授权授权公告中获悉：该发明授权的专利申请号/专利号为：202510540965.8，技术领域涉及：G06V20/40；该发明授权基于多模态记忆知识的密集视频描述方法是由李永刚;方豪杰;曹宗瑞;叶利华;魏远旺;龚迅炜;刘艳梅设计研发完成，并于2025-04-27向国家知识产权局提交的专利申请。

本基于多模态记忆知识的密集视频描述方法在说明书摘要公布了：本发明涉及视频描述领域，具体涉及一种基于多模态记忆知识的密集视频描述方法，包括：提取输入视频的视觉特征和音频特征并进行跨模态融合，生成最终音频编码和最终视觉编码；基于最终音频编码和最终视觉编码，从输入视频中确定多个候选事件的事件视觉特征和事件音频特征；对于每个候选事件，基于其对应的事件视觉特征和事件音频特征，从外部记忆知识库中检索其匹配的外部知识，生成其对应的多模态外部记忆知识；基于每个候选事件的多模态外部记忆知识、事件视觉特征和事件音频特征，通过自回归机制逐步构建单词嵌入序列，生成输入视频的描述。本发明能够从更全面的信息中学习事件与描述之间的对应关系，显著提升了生成描述的准确性和丰富性。

本发明授权基于多模态记忆知识的密集视频描述方法在权利要求书中公布了：1.一种基于多模态记忆知识的密集视频描述方法，其特征在于，所述方法包括：提取输入视频的视觉特征和音频特征；对视觉特征和音频特征进行跨模态融合，生成最终音频编码和最终视觉编码；基于最终音频编码和最终视觉编码，从输入视频中确定多个候选事件的事件视觉特征和事件音频特征；对于每个候选事件，基于其对应的事件视觉特征和事件音频特征，从预先构建的外部记忆知识库中检索其匹配的外部知识，生成其对应的多模态外部记忆知识，所述外部记忆知识库的构建步骤包括：从预先准备的目标数据集中的视频里提取数据集音频特征和数据集视觉特征；采用聚类算法对数据集音频特征和数据集视觉特征分别进行聚类处理，得到多个视觉聚类中心和多个音频聚类中心，以每个视觉聚类中心作为一个外部视觉知识库，以每个音频聚类中心作为一个外部音频知识库；使用文本编码器对目标数据集中的视频对应的人工描述文本进行编码，得到多个外部文本知识库；组合外部视觉知识库、外部音频知识库、外部文本知识库，得到外部记忆知识库；基于每个候选事件的多模态外部记忆知识、事件视觉特征和事件音频特征，通过自回归机制逐步构建单词嵌入序列，生成输入视频的描述。

如需购买、转让、实施、许可或投资类似专利技术，可联系本专利的申请人或专利权人嘉兴大学，其通讯地址为：314001 浙江省嘉兴市广穹路899号；或者联系龙图腾网官方客服，联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

请提出您的宝贵建议，有机会获取IP积分或其他奖励

嘉兴大学李永刚获国家专利权

热门推荐

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务