湖南大学蔡敏捷获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉湖南大学申请的专利基于音频特征分离情感并驱动人脸动画合成方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116403144B 。
龙图腾网通过国家知识产权局官网在2025-09-19发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310401054.8,技术领域涉及:G06V20/40;该发明授权基于音频特征分离情感并驱动人脸动画合成方法及系统是由蔡敏捷;任新设计研发完成,并于2023-04-14向国家知识产权局提交的专利申请。
本基于音频特征分离情感并驱动人脸动画合成方法及系统在说明书摘要公布了:本发明涉及一种基于音频特征分离情感并驱动人脸动画合成方法及系统,包括步骤:S1、给定需动画合成的一段语音音频和一段动态的参考面部图像;S2、从语音音频结合参考面部图像提取音频特征,从参考面部图像中提取面部标志点;S3、从提取的音频特征中进行内容信息、身份信息和情感信息的分离;S4、通过神经网络结合音频特征的内容信息、身份信息、情感信息和面部标志点获得预测图像的标志点坐标;S5、根据预测图像的标志点坐标构造标志点图;S6、将标志点图与参考面部图像中的图像叠加,利用生成网络生成脸部图像。本发明根据讲话内容、情感部分和身分特征对参考面部图像的脸部表情进行控制,更细粒度地合成人脸动画视频。
本发明授权基于音频特征分离情感并驱动人脸动画合成方法及系统在权利要求书中公布了:1.一种基于音频特征分离情感并驱动人脸动画合成方法,其特征在于,包括如下步骤: S1、给定需动画合成的一段语音音频和一段动态的参考面部图像; S2、从语音音频中提取音频特征,从参考面部图像中提取面部标志点; S3、从提取的音频特征结合参考面部图像进行内容信息、身份信息和情感信息的分离; S4、通过MLP全连接神经网络结合音频特征的内容信息、身份信息、情感信息和面部标志点获得预测图像的标志点坐标; S5、根据预测图像的标志点坐标构造标志点图; S6、将标志点图与参考面部图像中的图像叠加,利用生成网络生成合成后的脸部图像; 所述步骤S3中,从提取的音频特征结合参考面部图像进行内容信息、身份信息和情感信息的分离,包括如下步骤: S31、使用神经网络对音频特征进行编码; S32、使用长短期记忆网络捕获音频特征的时序信息获得包含内容特征嵌入的内容信息; S33、使用两个神经网络分别将音频特征转换为情感特征嵌入和身份特征嵌入; S34、通过对比学习的方式结合参考面部图像训练长短期记忆网络和神经网络,以分离出包含情感特征嵌入的情感信息和包含身份特征嵌入的身份信息; S35、将包含情感特征嵌入的情感信息和包含身份特征嵌入的身份信息输入自注意力编码器获得包含风格特征嵌入的风格信息; 所述步骤S34中,通过对比学习的方式结合参考面部图像分离出包含情感特征嵌入的情感信息和包含身份特征嵌入的身份信息,包括如下步骤: S341、从参考面部图像中分别选取第一视频片段和第二视频片段,再选取一段与参考面部图像中同一讲话者的视频片段作为第三视频片段; S342、将三个视频片段在对比学习模型中进行对比学习,根据第一视频片段的情感特征嵌入和第二视频片段的情感特征嵌入分离出包含情感特征嵌入的情感信息; S343、由表情预测网络预测三个视频片段中表情的softmax概率; S344、根据第一视频片段的身份特征嵌入和第三视频片段的身份特征嵌入分离出包含身份特征嵌入的身份信息。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人湖南大学,其通讯地址为:410082 湖南省长沙市岳麓区麓山南路麓山门;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。
请提出您的宝贵建议,有机会获取IP积分或其他奖励