华南理工大学谭明奎获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉华南理工大学申请的专利一种基于音频驱动的三维人脸动画生成方法、装置及介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116309988B 。
龙图腾网通过国家知识产权局官网在2026-03-20发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310103588.2,技术领域涉及:G06T13/40;该发明授权一种基于音频驱动的三维人脸动画生成方法、装置及介质是由谭明奎;刘旭;杜卿设计研发完成,并于2023-02-09向国家知识产权局提交的专利申请。
本一种基于音频驱动的三维人脸动画生成方法、装置及介质在说明书摘要公布了:本发明公开了一种基于音频驱动的三维人脸动画生成方法、装置及介质,其中方法包括:获取输入音频,提取音频特征;根据所述音频特征预测得到当前说话人的说话风格;将获得的说话风格和音频特征输入自回归系数预测模型,逐帧预测音频对应的三维人脸模型系数;将获得的三维人脸模型系数映射到三维顶点坐标;根据获得的三维顶点坐标与真实坐标计算损失,并采用嘴型和脸部关键点损失函数对模型进行训练。本发明通过自回归系数预测算法解决三维人脸动画生成方法泛化性弱、嘴型匹配度低的问题,有效地提高生成动画的嘴型匹配度和模型对于新人脸或新音频的驱动能力。本发明可广泛应用于三维人脸驱动技术领域。
本发明授权一种基于音频驱动的三维人脸动画生成方法、装置及介质在权利要求书中公布了:1.一种基于音频驱动的三维人脸动画生成方法,其特征在于,包括以下步骤: 获取输入音频,提取音频特征; 根据所述音频特征预测得到当前说话人的说话风格; 将获得的说话风格和音频特征输入自回归系数预测模型,逐帧预测音频对应的三维人脸模型系数; 将获得的三维人脸模型系数映射到三维顶点坐标; 根据获得的三维顶点坐标与真实坐标计算损失,并采用嘴型和脸部关键点损失函数对模型进行训练; 所述自回归系数预测模型包括一层Transformer解码器和两层线性整流层; 所述将获得的说话风格和音频特征输入自回归系数预测模型,逐帧预测音频对应的三维人脸模型系数,包括: 在预测第1帧音频对应的三维人脸模型系数时,以说话风格S和第1帧音频的音频特征作为Transformer解码器的输入,提取得到特征F1,使用第一层线性整流层根据特征F1预测得到第一帧系数C1; 使用第二层线性整流层根据第一帧系数C1提取得到第一帧嘴型动画特征A1,作为当前嘴型动画特征A=A1; 在预测第2帧系数C2时,则将说话风格S和当前嘴型动画特征A1相加,结合前两帧的音频特征使用Transformer解码器和第一层线性整流层预测得到前两帧的系数C1,2; 使用第二层线性整流层根据预测的第二帧系数C2得到第二帧嘴型动画特征A2,并更新当前嘴型动画特征为A=concatA1,A2; 在预测第i帧音频对应的三维人脸模型系数Ci时,根据前i帧的音频特征说话风格S和前i-1帧嘴型动画特征拼接得到的当前嘴型动画特征A=concatA1,…,Ai-1,预测得到前i帧系数C1,…,i,最终获得整段音频的系数。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人华南理工大学,其通讯地址为:510641 广东省广州市天河区五山路381号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励