华南理工大学姚喜佳获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉华南理工大学申请的专利基于变分自编码网络双向化损失函数的语音转换方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116312582B 。
龙图腾网通过国家知识产权局官网在2025-12-05发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310167537.6,技术领域涉及:G10L21/013;该发明授权基于变分自编码网络双向化损失函数的语音转换方法是由姚喜佳;李艳雄;阮春尧;刘彬;张炫凯;孙建鑫设计研发完成,并于2023-02-27向国家知识产权局提交的专利申请。
本基于变分自编码网络双向化损失函数的语音转换方法在说明书摘要公布了:本发明公开了一种基于变分自编码网络双向化损失函数的语音转换方法,过程如下:选取并划分语音数据;从各个语音样本提取声学特征;构建文本编码器、说话人编码器与解码器:将语音输入文本编码器和说话人编码器,分别提取文本信息和说话人信息,再通过解码器得到重构语音;构造双向化损失函数并训练网络,使得相同说话人的不同语音样本的说话人发音特性信息一致且提取的文本信息的散度值尽可能小;采用语音测试集评测此变分自编码网络的语音转换性能。本发明通过构造文本编码器和说话人编码器,分离说话人发音特性信息和文本信息,实现一次性语音转换。采用双向化损失函数训练变分自编码网络,在不增加算法复杂度的前提下提高语音转换性能。
本发明授权基于变分自编码网络双向化损失函数的语音转换方法在权利要求书中公布了:1.一种基于变分自编码网络双向化损失函数的语音转换方法,其特征在于,所述语音转换方法包括下列步骤: S1、将语音数据集划分为训练集和测试集; S2、从语音数据集的各语音样本提取梅尔刻度频谱图,进行归一化处理; S3、设计变分自编码网络,所述变分自编码网络包括文本编码器、说话人编码器和解码器,其中,文本编码器与说话人编码器并行连接后与解码器顺序连接;步骤S3包括: S3.1、构造说话人编码器,简称ES,过程如下: S3.1.1、构造扩大视野层,简称ConBank:将输入的语音波形进行卷积,此卷积层的卷积核大小、输入维度、输出维度、滑动步长分别为:3×3、128、128、1,记为Conv1,然后对卷积输出结果进行填充扩大,并进行拼接后输出; S3.1.2、将ConBank输出结果进行卷积,再通过ReLu函数,输出后再次进行卷积和通过ReLu函数,其中,卷积层的卷积核大小、输入维度、输出维度、滑动步长分别为:3×3、128、128、2,记为Conv2,ReLU函数的表达式为: 其中xin为ReLu函数的输入; S3.1.3、将上一步骤的输出结果输入到平均池化层,简称AvgPool; S3.1.4、将上一步骤的输出结果输入到全连接层,记为Dense,然后再通过ReLU函数,得到ES的最终输出,即说话人发音特性信息,记为zs,其中,Dense的节点数为128; S3.2、构造文本编码器,简称Ec,过程如下: S3.2.1、将输入的语音波形输入到ConBank; S3.2.2、将上一步骤的输出结果输入到Conv1,再通过ReLu函数,然后再输入归一化层,记为IN,将归一化层的输出输入到Conv2,然后通过ReLu函数,最后再次输入到IN,得到Ec的最终输出,即文本信息,记为zc,其中,IN即是沿着通道方向独立对各个通道的频率进行归一化计算,其中每个通道的计算如下所示: 其中a和b为归一化的权重参数,为非零常数,W为归一化层中各通道上的数据矩阵,EW是W的期望,VarW为W的方差,Y为归一化后的值; S4、构造重构损失函数、KL散度损失函数、同一说话人信息损失函数和不同说话人信息损失函数,从而得到总损失函数,并在总损失函数的指导下多次迭代训练变分自编码网络; S5、从测试集随机选出测试样本,将测试样本的梅尔刻度频谱特征输入到经过训练的变分自编码网络中,得到该测试样本进行语音转换后的重构语音。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人华南理工大学,其通讯地址为:510640 广东省广州市天河区五山路381号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励