平安科技(深圳)有限公司张旭龙获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉平安科技(深圳)有限公司申请的专利一种基于IN和MI的语音转换方法、系统、终端及存储介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114842859B 。
龙图腾网通过国家知识产权局官网在2026-02-27发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210515056.5,技术领域涉及:G10L21/013;该发明授权一种基于IN和MI的语音转换方法、系统、终端及存储介质是由张旭龙;王健宗;程宁设计研发完成,并于2022-05-12向国家知识产权局提交的专利申请。
本一种基于IN和MI的语音转换方法、系统、终端及存储介质在说明书摘要公布了:本发明公开了一种基于IN和MI的语音转换方法、系统、终端及存储介质。所述方法包括:获取源语音数据的梅尔频谱;将所述源语音数据的梅尔频谱输入预训练好的基于IN和MI的语音转换模型,所述语音转换模型利用IN算法获取源语音数据对应的文本信息嵌入,利用编码器获取与说话人有关的说话人信息嵌入,并利用MI算法衡量所述文本信息嵌入和说话人信息嵌入的相关程度;基于所述文本信息嵌入和说话人信息嵌入,通过decoder生成对应目标说话人音色的语音数据。本发明能够进一步加强语音特征和说话人特征的特征解耦功能,实现更好的语音转换效果,能够更好的胜任动画短视频配音等个性化语音合成任务,扩展了语音转换模型的应用场景。
本发明授权一种基于IN和MI的语音转换方法、系统、终端及存储介质在权利要求书中公布了:1.一种基于IN和MI的语音转换方法,其特征在于,包括: 获取源语音数据的梅尔频谱; 将所述源语音数据的梅尔频谱输入预训练好的基于IN和MI的语音转换模型,所述语音转换模型利用IN算法获取源语音数据对应的文本信息嵌入,利用编码器获取与说话人有关的说话人信息嵌入,并利用MI算法衡量所述文本信息嵌入和说话人信息嵌入的相关程度; 所述基于IN和MI的语音转换模型包括第一encoder、IN模块、第二encoder、decoder和分类器;所述第一encoder用于从源语音数据的梅尔频谱中提取出包含且仅包含内容信息的内容向量;所述IN模块用于从梅尔频谱中过滤掉音色信息,得到与说话人无关的内容向量;所述第二encoder用于提取与说话人有关的说话人信息嵌入;所述decoder用于根据内容向量和说话人信息嵌入学习生成目标说话人的梅尔频谱;在所述分类器和第一encoder之间还包括梯度反转层,所述梯度反转层用于在反向传播到该层时使得梯度转为负值,从而使得所述第一encoder和分类器的优化目标完全相反; 所述基于IN和MI的语音转换模型的训练过程包括:在模型训练阶段,以所述源语音数据的梅尔频谱为输入,通过所述IN模块获得源语音数据对应的文本信息嵌入,通过第二encoder得到与说话人有关的说话人信息嵌入;将所述文本信息嵌入和说话人信息嵌入投入到decoder中,获得重构语音,实现语音重构任务,所述语音重构任务的损失为;同时,计算MIc,s并使其更小,MIc,s代表文本信息嵌入和说话人信息嵌入的互信息; 基于所述文本信息嵌入和说话人信息嵌入,通过decoder生成对应目标说话人音色的语音数据; 基于所述的基于IN和MI的语音转换方法的结果得到对应的摘要信息,所述摘要信息由所述的基于IN和MI的语音转换方法的结果进行散列处理得到,并将摘要信息上传至区块链。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人平安科技(深圳)有限公司,其通讯地址为:518000 广东省深圳市福田区福田街道福安社区益田路5033号平安金融中心23楼;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励