哈尔滨工业大学(威海)张盛平获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉哈尔滨工业大学(威海)申请的专利基于多模态统一嵌入空间引导的听话人视频生成方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120833425B 。
龙图腾网通过国家知识产权局官网在2025-12-05发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511324193.0,技术领域涉及:G06T13/40;该发明授权基于多模态统一嵌入空间引导的听话人视频生成方法是由张盛平;赵思喆;王晨阳;李宗霖;柳青林设计研发完成,并于2025-09-17向国家知识产权局提交的专利申请。
本基于多模态统一嵌入空间引导的听话人视频生成方法在说明书摘要公布了:本申请公开了基于多模态统一嵌入空间引导的听话人视频生成方法,方法包括:获取说话人的第一真实视频,并提取对应的视频特征和音频特征作为发起用户特征;通过预先训练的情感预测模型,根据发起用户特征进行情感预测,得到听话人的接收情感特征;通过模态自适应混合专家编码器,将发起用户特征与接收情感特征融合,得到融合特征;通过预先训练的动作生成模型,基于交叉注意力层,根据融合特征生成听话人对应的动作数据;根据动作数据进行渲染,生成听话人对应的头部视频。专注于生成核心的动作数据,而非直接生成原始像素视频,后续渲染步骤相对独立,降低了实时生成的计算复杂度,提升了响应的实时性潜力。
本发明授权基于多模态统一嵌入空间引导的听话人视频生成方法在权利要求书中公布了:1.基于多模态统一嵌入空间引导的听话人视频生成方法,其特征在于,包括: 获取说话人的第一真实视频,并提取对应的视频特征和音频特征作为发起用户特征; 通过预先训练的情感预测模型,根据所述发起用户特征进行情感预测,得到听话人的接收情感特征; 通过模态自适应混合专家编码器,将所述发起用户特征与所述接收情感特征基于统一嵌入空间内进行融合,得到融合特征; 通过预先训练的动作生成模型,基于交叉注意力层,根据所述融合特征生成所述听话人对应的动作数据; 根据所述动作数据进行渲染,生成所述听话人对应的头部视频; 所述方法还包括: 预先通过听话人的第二真实视频,提取得到基于三维可变形人脸表示的时序运动序列,并以训练样本中的所述听话人的所述时序运动序列作为监督定义第二约束,通过最小化所述第二约束对所述模态自适应混合专家编码器、所述动作生成模型进行训练;通过所述第二约束对所述模态自适应混合专家编码器的训练过程包括: 对所述用户特征进行随机屏蔽处理,以对至少部分所述视频特征,和或至少部分所述音频特征进行屏蔽; 将屏蔽处理后的所述用户特征输入至模态自适应混合专家编码器,以将屏蔽处理后的所述用户特征映射到统一嵌入空间; 通过嵌入模块将情感类别编码得到的所述接收情感特征,与所述统一嵌入空间中的屏蔽处理后的所述用户特征进行拼接,得到融合特征; 将所述融合特征输入所述动作生成模型,通过所述第二约束对所述模态自适应混合专家编码器进行训练。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人哈尔滨工业大学(威海),其通讯地址为:264209 山东省威海市环翠区文化西路2号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励