南京理工大学练智超获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉南京理工大学申请的专利面向深度伪造音视频的多模态融合检测方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116797896B 。
龙图腾网通过国家知识产权局官网在2025-10-10发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310804203.5,技术领域涉及:G06V10/80;该发明授权面向深度伪造音视频的多模态融合检测方法是由练智超;彭雪康;王书娟设计研发完成,并于2023-07-03向国家知识产权局提交的专利申请。
本面向深度伪造音视频的多模态融合检测方法在说明书摘要公布了:本发明公开一种面向深度伪造音视频的多模态融合检测方法,属于多模态机器学习领域,包括使用时序‑空间特征提取器、交叉注意力跨模态联合学习解码器和多模态分类检测器构建一个网络架构来进行音频‑视频多模态识别;时序‑空间特征提取器负责对音频和视频模态特征进行统一的处理;交叉注意力跨模态联合学习解码器通过两个并行的解码器使两种模态信息进行联合学习;多模态分类检测器通过融合二者的特征信息输出二分类结果。本发明利用音频‑图像模态的互补性,能够区分出人类不易察觉的视频是否是伪造的,增强了对于多种伪造方法生成的深度伪造数据的检测鲁棒性,提高了人脸识别设备和虚假生成内容监管的安全性。
本发明授权面向深度伪造音视频的多模态融合检测方法在权利要求书中公布了:1.一种面向深度伪造音视频的多模态融合检测方法,其特征在于,包括:使用时空编码器、多模态联合解码器和跨模态检测器构建一个网络架构来进行音频-视频多模态识别;时空编码器负责对音频和视频模态特征进行统一的处理;多模态联合解码器通过两个并行的解码器使两种模态信息进行联合学习;跨模态检测器通过融合音频特征向量和视觉特征向量的特征信息输出二分类结果; 利用时空编码器编码带有音频的含人脸视频的方法如下: 使用两个串行的Transformer编码器作为特征的提取器;首先对音频和视频两种不同模态进行统一的帧采样和预处理;将预处理过的特征向量输入到第一Transformer编码器中; 第二Transformer编码器产生的编码,表示对应时间节点的具体空间特征;通过这两个编码器最终生成的编码含有对于每一时间节点的音频和图像对应的空间信息; 然后,将两种模态融合成的信息并行输入到多模态联合学习块中,进行隐空间的联合学习; 两种模态信息进行联合学习的方法如下: 通过Bi-attention方法对两种模态数据进行联合学习,采用多模态信号融合模块对视觉模态特征向量和音频模态特征向量进行解码,采用两个并行的Transformer模块作为视觉模态信号和音频模态信号的解码器;采用双向交叉注意力机制用以进行不同模态信息的共享和联合学习; 音频特征向量可以表示为: 图像特征向量可以表示为: 自注意力特征向量可以表示为: 其中,Q为查询向量,K为键向量,V为值向量; Pv和Pa代表从时空编码器分别编码输出的视觉模态特征向量和音频模态信号特征向量,Wq,Wk,Wv分别对应Q,K,V向量的权重矩阵,dk用以对Q*kT乘积结果进行归一化; 跨模态检测器通过融合音频特征向量和视觉特征向量的特征信息输出二分类结果的方法如下: 将输出向量输入到分类器,全连接层中,输出最后的二分类值,具体的表示方式如下: Y=FCconcatFAudio,FVisual; 其中,FC代表全连接层,FAudio、FVisual分别代表经过解码器输出的音频特征向量和视觉特征向量,concatFAudio,FVisual表示对两个向量进行拼接; 最终得到是一个音频-视频的匹配相关程度概率值,概率值越高,判定为真概率越高。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人南京理工大学,其通讯地址为:210023 江苏省南京市玄武区孝陵卫街道孝陵卫街200号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励