Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 积分商城 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 河海大学陈培垠获国家专利权

河海大学陈培垠获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉河海大学申请的专利一种通过文字驱动的数字人物说话视频生成方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120812364B

龙图腾网通过国家知识产权局官网在2025-11-14发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511303017.9,技术领域涉及:H04N21/81;该发明授权一种通过文字驱动的数字人物说话视频生成方法及系统是由陈培垠;阳卓惟;蒋晟;王昱设计研发完成,并于2025-09-12向国家知识产权局提交的专利申请。

一种通过文字驱动的数字人物说话视频生成方法及系统在说明书摘要公布了:本发明公开了一种通过文字驱动的数字人物说话视频生成方法及系统,属于人工智能视频生成技术领域。该方法首先对于数字人物视频数据集所涉到的视频进行视频处理;然后进行文字以及图像特征提取;再进行图像特征重塑并将文字特征利用WaveNet生成音频;接着对生成的多帧图像进行修复;最后将步骤修复后的图像与步骤生成的音频按时间顺序拼接生成数字人物视频并对生成结果评估。该方法具备强大的控制能力、多样的控制类型,无需重新训练基础模型,能有效提升数字人物说话视频的生成效果,使视频中人物动作、表情与语音内容高度契合,显著提高用户体验。

本发明授权一种通过文字驱动的数字人物说话视频生成方法及系统在权利要求书中公布了:1.一种通过文字驱动的数字人物说话视频生成方法,其特征在于,该方法包括如下步骤: 1对于数字人物视频数据集所涉到的视频进行视频处理:首先,对原始视频执行帧率标准化的预处理操作;随后,将经过预处理的视频逐帧转换为图像;接着,运用Face-Alignment模型对所得图像进行人脸检测,并裁剪出面部区域得到处理后图像; 2文字以及图像特征提取:对于数字人物视频额外添加的用于描述数据集中人物表情神态及对话内容的文字信息具体特征提取方式如下:采用预训练的CLIP文本编码器对文字信息进行处理以生成语义特征;同时,引入基于BERT预训练模型的情感分类辅助分支,同步提取文本的情感特征;最终将语义特征与情感特征进行融合,形成兼具语义内容与情感属性的双向文字特征; 对于步骤1得到的处理后图像,利用向量量化变分自编码器通提取图像特征; 3图像特征重塑:由步骤2得到的文字特征和图像特征,首先通过扩散过程向图像特征中加入多次迭代的噪声,之后将文字特征以及加噪后的图像特征通过多模态注意力机制融合,并送入U型网络中迭代去噪,经过多次迭代后,生成去噪后的图像特征,以此循环多次生成多个重塑的图像特征; 4音频生成:由步骤2得到的文字特征,利用WaveNet生成音频; 5图像生成:由步骤3得到多个重塑的图像特征,在送入解码器之前,需通过时间对齐模块进行处理,具体而言,先从整体图像特征中指定部分图像特征作为运动特征,随后将该运动特征加上噪声,并沿时间轴与当前批次的图像特征进行拼接;之后将通过时间对齐模块进行处理后的图像特征送入解码器中,重建出多帧图像,再经过人脸修复模块对生成的多帧图像进行修复; 6视频生成:将步骤5修复后的图像与步骤4生成的音频按时间顺序拼接生成数字人物视频; 7生成结果评估。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人河海大学,其通讯地址为:210024 江苏省南京市鼓楼区西康路1号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。