中国科学院声学研究所王丽获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉中国科学院声学研究所申请的专利一种端到端语音合成方法和装置获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115985289B 。
龙图腾网通过国家知识产权局官网在2025-09-09发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211582420.6,技术领域涉及:G10L13/08;该发明授权一种端到端语音合成方法和装置是由王丽;尚增强;张鹏远设计研发完成,并于2022-12-09向国家知识产权局提交的专利申请。
本一种端到端语音合成方法和装置在说明书摘要公布了:本发明涉及一种端到端语音合成方法,所述方法具体包括:构建包括HAE、HCE、HAD的层级条件变分自编码器模型;以最大化证据下界为训练目标,训练所述模型;合成语音波形。还涉及了装置,包括HAE、HCE、HAD、训练模块;其中,HAE包括:帧级、音素级、子词级、词级、句子级五级语音编码器,第一仿射模块;HCE包括:语言学表征提取模块、子词级、词级、句子级三级文本编码器;HAD包括:句子级、词级、子词级、音素级、帧级五级解码器,第二仿射模块。本发明的方法和装置,提升了合成语音的整体质量、自然性,以及韵律表现力。
本发明授权一种端到端语音合成方法和装置在权利要求书中公布了:1.一种端到端语音合成方法,其特征在于,包括: 构建包括HAE、HCE、HAD的层级条件变分自编码器模型; 以最大化证据下界为训练目标,训练所述模型,包括: HCE从文本样本中提取音素级语言学表征和字符级语言学表征,并依据提取的语言学表征逐级下采样获得子词级、词级、句子级语言学表征,并将音素级、子词级、词级语言学表征输入给HAE、HAD作为获取各自下一级表征的监督信息; HAE从文本样本对应的线性谱中提取帧级表征,然后自帧级表征起对各级表征逐级下采样获得音素级、子词级、词级和句子级表征,利用仿射变换从各级表征获得相应的各级隐变量;其中,下采样获得子词级表征时采用了音素时长; HAD将句子级语言学表征和HAE输入的句子级隐变量的特征组合上采样获得词级表征,然后自词级起逐级对各级表征和HAE输入的与该级表征相应级隐变量的特征组合上采样获得子词、音素和帧级表征,利用仿射变换从句子级语言学表征和上采样获得的各级表征获得相应的各级隐变量;依据帧级表征的和HAE输入的帧级隐变量的特征组合重建语音波形;其中,上采样获得音素级表征时重建音素时长; 合成语音波形,包括: HCE从待合成文本中提取音素级语言学表征和字符级语言学表征,并依据提取的语言学表征逐级下采样获得子词级、词级和句子级语言学表征,并将音素级、子词级、词级语言学表征输入给HAD作为获取各自下一级表征的监督信息; HAD利用仿射变换从句子级语言学表征获得句子级隐变量;将句子级隐变量和句子级语言学表征的特征组合上采样获得词级表征,然后自词级起逐级对各级表征和与该级表征相应级隐变量的特征组合上采样获得子词、音素和帧级表征;利用仿射变换从各级表征获得相应的各级隐变量;依据帧级隐变量和帧级表征的特征组合合成语音波形;其中,上采样获得音素级表征时重建音素时长。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中国科学院声学研究所,其通讯地址为:100190 北京市海淀区北四环西路21号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。