华侨大学;信泰(福建)科技有限公司;福建省万物智联科技有限公司曾焕强获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉华侨大学;信泰(福建)科技有限公司;福建省万物智联科技有限公司申请的专利基于深度感知融合的语音驱动人脸视频生成方法及装置获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119832929B 。
龙图腾网通过国家知识产权局官网在2025-07-22发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510311256.2,技术领域涉及:G10L21/10;该发明授权基于深度感知融合的语音驱动人脸视频生成方法及装置是由曾焕强;郑航杰;温廷羲;朱建清;施一帆;许金泰;许剑飞;章水德;杨慰民设计研发完成,并于2025-03-17向国家知识产权局提交的专利申请。
本基于深度感知融合的语音驱动人脸视频生成方法及装置在说明书摘要公布了:一种基于深度感知融合的语音驱动人脸视频生成方法及装置,涉及计算机视觉与图像处理领域,方法包括:S1,获取具有音频片段和参考图像的人脸说话视频数据集,对数据集进行预处理后,分为训练数据集和测试数据集;S2,构建人脸视频生成模型;包括音频编码器、图像编码器、深度编码器、交叉参考模块和跨模态注意力模块;S3,使用训练数据集合训练人脸视频生成模型,得到训练好的人脸视频生成模型;S4,将测试数据集输入训练好的人脸视频生成模型,输出生成的结合音频和视频的人脸视频。本发明通过在人脸视频生成模型中引入交叉参考模块和跨模态注意力模块,有效地在提高了人脸视频的面部结构准确度的同时兼顾了运动的细粒度细节。
本发明授权基于深度感知融合的语音驱动人脸视频生成方法及装置在权利要求书中公布了:1.一种基于深度感知融合的语音驱动人脸视频生成方法,其特征在于,包括如下步骤: S1,获取具有音频片段和参考图像的人脸说话视频数据集,对数据集进行预处理后分为训练数据集和测试数据集; S2,构建人脸视频生成模型;所述人脸视频生成模型包括音频编码器、图像编码器、深度编码器、交叉参考模块和跨模态注意力模块;所述音频编码器提取数据集中的音频的梅尔普特征;所述图像编码器提取数据集中图像的RGB特征;所述深度编码器提取数据集中图像的深度图特征;所述交叉参考模块融合深度图特征和RGB特征;所述跨模态注意力模块引入自注意力机制增强面部结构保留能力; S3,使用训练数据集合训练人脸视频生成模型,得到训练好的人脸视频生成模型; S4,将测试数据集输入训练好的人脸视频生成模型,输出结合音频和视频的人脸视频; 所述交叉参考模块,具体如下: S21,对深度图特征和RGB特征分别进行全局平均池化获得RGB特征向量和深度图特征向量;其中,RGB特征第i个卷积块产生的输入特征表示为Fi RGB,深度图特征第i个卷积块产生输入特征表示为Fi Depth; S22,将RGB特征向量和深度图特征向量分别输入全连接层和Softmax激活函数以获得两通道注意力向量,公式如下: 其中,wi和bi表示第i个特征的全连接层的参数;AvgPooling·表示全局平均池化操作;表示RGB特征的通道注意力向量;表示深度图特征的通道注意力向量;δ·表示Softmax激活函数; S23,将两通道注意力向量分别与对应的输入特征逐通道相乘,生成通道增强特征,如下: 其中,表示按通道乘法;表示RGB特征的通道增强特征;表示深度图特征的通道增强特征; S24,将通道注意力向量和通过最大函数进行聚合,并进行归一化操作,获得交叉引用的融合通道注意力向量,表示为: 其中,表示融合通道注意力向量;表示归一化操作;Max·表示最大函数聚合; S25,基于融合通道注意力向量使用对和进行特征增强,得到增强特征和将两个增强特征进一步级联并馈送到1×1卷积层,生成跨模态融合特征Fi,该过程表示为: 其中,表示RGB特征的增强特征;表示深度图特征的增强特征;Conv1×1表示1×1卷积层;Concat表示级联连接;Fi表示跨模态融合特征。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人华侨大学;信泰(福建)科技有限公司;福建省万物智联科技有限公司,其通讯地址为:362000 福建省泉州市丰泽区城东城华北路269号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。