杭州电子科技大学王秋华获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉杭州电子科技大学申请的专利一种基于分层韵律预测的多语言语音合成方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115547293B 。
龙图腾网通过国家知识产权局官网在2025-12-23发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211178621.X,技术领域涉及:G10L13/027;该发明授权一种基于分层韵律预测的多语言语音合成方法及系统是由王秋华;陈嘉怡;李逸佳;吴国华;任一支设计研发完成,并于2022-09-27向国家知识产权局提交的专利申请。
本一种基于分层韵律预测的多语言语音合成方法及系统在说明书摘要公布了:本发明公开了一种基于分层韵律预测的多语言语音合成方法,包括如下步骤:S1、制作训练集,获取不同说话人的多语言标准参考音频及对应的样本文本,对其进行预处理得到训练样本,并制作成训练集;S2、构建并训练语音合成模型,通过预处理后的训练集对构建的语音合成模型进行训练;S3、语音合成,训练好后的语音合成模型根据输入的待合成文本和参考音频生成指定声音风格的多语言语音,经由声码器输出。以在多语言穿插使用的场景下更有效地提取文本和参考音频中的韵律特征,提升合成语音韵律的灵活度和可控性,细粒度调控韵律以提高合成语音的自然度,并实现复制任一说话人声音、迁移任一说话风格的功能。
本发明授权一种基于分层韵律预测的多语言语音合成方法及系统在权利要求书中公布了:1.一种基于分层韵律预测的多语言语音合成方法,其特征在于,包括如下步骤: S1、制作训练集 获取不同说话人的多语言标准参考音频及对应的样本文本,对其进行预处理得到训练样本,并制作成训练集; S2、构建并训练语音合成模型 S21、构建语音合成模型,所述语音合成模型包括生成卷积编码器、说话人编码器、批量实例标准化全局风格标注层、韵律模块、对抗式说话人分类器、注意力机制模块、生成对抗网络、解码器;所述韵律模块由词级、IPA级的风格提取器与风格预测器组成;所述生成卷积编码器由上下文参数生成器和文本编码器构成; S22、通过预处理后的训练集对构建的语音合成模型进行训练; 所述语音合成模型的训练方法包括如下子步骤: S221、将语言ID特征向量输入上下文参数生成器,得到文本编码器中每层网络所需的参数,文本编码器同时对多语言文本进行编码得到IPA语音特征,并将字符向量转换为隐藏层语音特征,输出语音文本特征向量; S222、将生成卷积编码器输出的语音文本特征向量作为对抗式说话人分类器的输入,通过自适应平均池化层、一层全连接层和L2范式正规化,得到文本的说话人特征信息,而后进行反向更新,通过梯度反转层,将传向生成卷积编码器的梯度乘以负常数值,使生成卷积编码器的输出无法被区分出所属说话人,从而解耦说话人特征与文本内容特征; S223、通过梅尔频谱图提取的多源特征分别与语音文本特征向量进行拼接; S224、注意力机制将语音文本特征向量总结成每个解码时间步的上下文权重向量; S225、解码器根据语音文本特征向量、多源特征与上下文权重向量,预测出对应的梅尔频谱图; S226、在训练过程中利用生成对抗网络提升语音质量; S3、语音合成 训练好后的语音合成模型根据输入的待合成文本和参考音频生成指定声音风格的多语言语音,经由声码器输出。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人杭州电子科技大学,其通讯地址为:310018 浙江省杭州市钱塘新区白杨街道2号大街1158号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励