中山大学王昊頔获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉中山大学申请的专利一种基于多模态信息控制的说话人脸视频生成方法及装置获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN117456587B 。
龙图腾网通过国家知识产权局官网在2025-10-21发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202311564052.7,技术领域涉及:G06V40/16;该发明授权一种基于多模态信息控制的说话人脸视频生成方法及装置是由王昊頔;操晓春设计研发完成,并于2023-11-21向国家知识产权局提交的专利申请。
本一种基于多模态信息控制的说话人脸视频生成方法及装置在说明书摘要公布了:本发明公开了一种基于多模态信息控制的说话人脸视频生成方法及装置,方法包括:对输入图像进行图像编码,获得隐式表征;对隐式特征进行扩散加噪,获得带噪隐变量;基于视觉人脸参考图像,获得人物身份特征和人脸掩码特征;基于输入音频,获得音频特征;基于情感文本,获得情感文本特征,并通过联合嵌入获得情感视觉联合特征,进一步获得情感控制特征;基于人物身份特征、人脸掩码特征、音频特征和情感控制特征,对带噪隐变量进行去噪和图像解码,获得说话人脸目标图像,进而获得说话人脸的目标视频。本发明能够生成高保真说话人脸,同时有效解决现有方法忽略人脸情感的局限性,具有广阔应用前景。
本发明授权一种基于多模态信息控制的说话人脸视频生成方法及装置在权利要求书中公布了:1.一种基于多模态信息控制的说话人脸视频生成方法,其特征在于,包括: 获取输入图像,对所述输入图像进行图像编码,获得隐式表征; 基于正态分布的噪声对所述隐式表征进行扩散加噪,获得带噪隐变量; 获取视觉人脸参考图像,对所述视觉人脸参考图像进行图像编码,获得人物身份特征;并对所述视觉人脸参考图像进行掩码处理和图像编码,获得人脸掩码特征; 获取输入音频,对所述输入音频进行特征提取,获得音频特征; 获取输入情感文本,对所述输入情感文本进行特征提取,获得情感文本特征;基于所述人物身份特征和所述情感文本特征进行联合嵌入,获得情感视觉联合特征; 基于所述情感视觉联合特征,获得情感控制特征; 基于所述人物身份特征、所述人脸掩码特征、所述音频特征和所述情感控制特征,对所述带噪隐变量进行去噪和图像解码,获得说话人脸的目标图像; 基于所述说话人脸的目标图像,获得说话人脸的目标视频; 所述获取视觉人脸参考图像,对所述视觉人脸参考图像进行图像编码,获得人物身份特征,包括: 利用预训练的第一图像编码器,对所述视觉人脸参考图像进行图像编码,获得第一人物身份特征; 利用预训练的第二图像编码器,对所述视觉人脸参考图像进行特征提取,获得第二人物身份特征; 其中,所述第一人物身份特征用于所述说话人脸的身份保持生成,所述第二人物身份特征用于所述说话人脸的情感视觉联合特征计算; 所述基于所述人物身份特征、所述人脸掩码特征、所述音频特征和所述情感控制特征,对所述带噪隐变量进行去噪和图像解码,获得说话人脸的目标图像,包括: 将所述第一人物身份特征、所述人脸掩码特征、所述音频特征输入到预训练的降噪模块,对所述带噪隐变量进行去噪; 其中,所述降噪模块包括若干U-Net,每个所述U-Net用于预测所述带噪隐变量在不同时间步的噪声残差,进而得到不同时间步预测的带噪隐变量;所述降噪模块基于噪声重构损失函数训练生成; 所述去噪的流程包括: 将所述第一人物身份特征、所述人脸掩码特征与不同时间步的所述带噪隐变量在通道方向上进行拼接,基于拼接特征生成说话人脸图像;其中,每个时间步的所述U-Net的输入为上一阶段的所述带噪隐变量与所述第一人物身份特征和所述人脸掩码特征的拼接特征; 将所述音频特征输入到每个所述U-Net,并与所述拼接特征进行交叉注意力机制计算,控制生成所述说话人脸的嘴型部分; 将所述情感控制特征输入到每个所述U-Net,并与所述拼接特征进行交叉注意力机制计算,控制生成所述说话人脸的面部情感,进而获得所述说话人脸的目标图像。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中山大学,其通讯地址为:510275 广东省广州市新港西路135号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励