广东工业大学林伟获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉广东工业大学申请的专利一种基于深度学习的有声书韵律语音合成方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116072100B 。
龙图腾网通过国家知识产权局官网在2025-09-16发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211685174.7,技术领域涉及:G10L13/047;该发明授权一种基于深度学习的有声书韵律语音合成方法是由林伟;钟巧霞;曾碧;林镇涛设计研发完成,并于2022-12-27向国家知识产权局提交的专利申请。
本一种基于深度学习的有声书韵律语音合成方法在说明书摘要公布了:本发明公开了一种基于深度学习的有声书韵律语音合成方法,首先,通过说话人编码器模块,提取参考音频的音频特征;其次,将待合成音频文本传入编码器和时长预测器并融合参考音频特征得到音频编码;接着通过韵律预测器和解码器输出合成音频频谱;最后,通过声码器将频谱转化为合成音频。本发明通过引入轻量卷积、韵律预测器,结合音素持续时长和音素韵律特征进行模型的训练,控制生成音频的全局韵律,解决发音容易出现错误且发声韵律单调无变化问题。
本发明授权一种基于深度学习的有声书韵律语音合成方法在权利要求书中公布了:1.一种基于深度学习的有声书韵律语音合成方法,其特征在于,通过说话人编码器、声学模型和声码器三大模块进行文本内容的音频合成,包括以下步骤: 步骤S1:从数据集中挑选出参考音频Wavreference,将参考音频Wavreference经过预处理转化为参考频谱Greference,构建说话人身份标签,将其映射为向量S; 步骤S2:将参考频谱Greference输入到一个长短时记忆网络中,再通过线性层获取说话人编码器的输出,将说话人编码器的输出向量Spred与训练集中的说话人身份标签向量S进行余弦相似度损失运算,减少相同说话人向量之间的距离; 步骤S3:重复步骤S2的操作,优化网络结构,直至达到迭代次数,说话人向量编码器训练完成; 步骤S4:从数据集随机挑选出参考频谱Greference,同时选取训练文本Text和对应的真实音频Wav;经过预处理将Text转化为原始音素序列phonemes,同时提取音频的真实音素时长序列T和真实梅尔频谱G;将原始音素序列phonemes送入编码器Encoder中获取音素的鲁棒性序列Z; 步骤S5:将音素的鲁棒性序列Z输入时长预测器DurationPrediction中获取每一个音素的持续时长,输出预测音素时长序列Tpred;在训练时,通过平滑L1损失函数计算预测音素时长序列Tpred与真实音素时长序列T之间的误差,进而通过反向传播优化网络的参数; 步骤S6:将音素的鲁棒性序列Z和预测音素时长序列Tpred分别送入扩展模块,进行复制扩展,并添加位置编码PositionEmbedding和说话人编码SpeakingEmbedding,得到与合成音频时长相等的扩展音素序列K; 步骤S7:将扩展音素序列K送入韵律预测器ProsyPrediction中挨个获取音素的韵律序列,最终输出音素韵律序列P; 步骤S8:将扩展音素序列K和音素韵律序列P结合后作为解码器Decoder的输入,最终解码出梅尔频谱Gpred;在训练时,采用Adam优化器、SSIM损失函数与L1损失函数共同优化模型; 步骤S9:重复步骤S4-S8,优化网络结构,直至达到最大迭代次数,声学模型结构f训练完成; 步骤S10:将真实梅尔频谱G送入声码器的生成器g中,获取相应的音频序列;接着判别器对生成器的输出音频Wavpred进行打分,降低生成器生成音频Wavpred与真实音频Wav的差值从而优化生成器结构; 步骤S11:重复步骤S10,优化网络结构,直至达到最大迭代次数,声码器结构g训练完成; 步骤S12:将参考音频Wavreference预处理得到参考频谱Greference,并传入说话人编码器中提取说话人编码向量SpeakEmbedding; 步骤S13:将待合成文本Text转化为音素序列phonemes,将音素序列phonemes输入声学模型f并结合说话人编码向量SpeakEmbedding和位置编码PositionEmbedding获取预测的梅尔频谱Gpred; 步骤S14:最后将梅尔频谱Gpred输入声码器模型的生成器g中得到预测音频Wavpred。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人广东工业大学,其通讯地址为:510062 广东省广州市越秀区东风东路729号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。
请提出您的宝贵建议,有机会获取IP积分或其他奖励