贵州师范大学徐洋获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉贵州师范大学申请的专利基于注意力特征融合的非平行任意到任意语音转换方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120496503B 。
龙图腾网通过国家知识产权局官网在2025-10-10发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510626108.X,技术领域涉及:G10L15/02;该发明授权基于注意力特征融合的非平行任意到任意语音转换方法是由徐洋;郭恺;张思聪;刘振涛;代新敏;刘志杰设计研发完成,并于2025-05-15向国家知识产权局提交的专利申请。
本基于注意力特征融合的非平行任意到任意语音转换方法在说明书摘要公布了:本发明属于智能语音领域,公开了一种基于注意力特征融合的非平行任意到任意语音转换方法,首先对原始语音与目标语音分别提取内容特征、说话人特征与音律特征;使用由时序实例归一化注意力所构成的瓶颈层对所提取的特征进行耦合得到特征图;联合时序实例归一化与高效通道注意力机制,在时频域动态整合局部音素细节与全局声学特征,完成声学迁移;最终通过神经声码器生成合成语音。本发明使用实例归一化与孪生损失增强对噪声和非平行数据的适应性与泛化性,以达到同时兼顾内容完整度和说话人特征相似度的语音合成效果;此外,本发明通过设置三种不同的训练与转换场景,提高的了模型的泛化性与鲁棒性,以实现高质量的多条目语音转换。
本发明授权基于注意力特征融合的非平行任意到任意语音转换方法在权利要求书中公布了:1.一种基于注意力特征融合的非平行任意到任意语音转换方法,其特征在于:首先对原始语音与目标语音分别提取内容特征、说话人特征与音律特征;使用由时序实例归一化注意力所构成的瓶颈层对所提取的特征进行耦合得到特征图;联合时序实例归一化与高效通道注意力机制,在时频域动态整合局部音素细节与全局声学特征,完成自适应声学迁移;最终通过神经声码器生成高质量语音,实例归一化与孪生损失增强对噪声和非平行数据的适应性;将训练用的数据集按一定比例拆分,进行预处理,使用数据集进行训练;包括以下步骤: 步骤1、获取语音数据集,对其中的每条语音进行预处理; 步骤2、构建语音转换模型,该模型包括: 特征提取模块,用于对原始语音与目标语音进行对应的内容、节奏、音高、音色等语音成分特征的提取; 瓶颈层,由时序实例归一化注意力融合与门限单元构成,用于将目标说话人的说话人特征、音律特征与原始说话人的说话人特征进行结合; EMAFF模块,由时序实例归一化注意力融合与高效通道注意力构成,在时频域动态整合原始语音与目标语音的局部音素细节与全局声学特征,完成声学迁移; 声码器,根据特征图生成最后的语音; 步骤3、使用数据集对模型进行训练; 步骤4、使用训练得到的模型在测试集中进行性能测试; 所述步骤1具体为,获取VCTK语音数据集,对所有音频进行预处理,将采样率降为16kHz;将数据集按3:1:1的比例分别用于训练集、有效集和测试集;选择20个说话人,并分别生成600个“说话人可见”场景,“说话人可见到不可见”场景与“说话人不可见”场景的语篇,以评估模型从训练过的相同分布中学习示例的能力; 所述步骤2的特征提取模块分为两部分:使用微调的预训练模型wav2vec2.0提取原始语音与目标语音的对比预测编码CPC作为内容特征与说话人特征;使用带重叠的分布式内联滤波算法提取目标语音的对数基频f0以表示其音高和基频; 所述步骤3的损失函数分别为重构损失和孪生损失;对于重构损失,通过L1损失函数比较从原始音频中提取的梅尔频谱图与模型预测的梅尔频谱图;对于孪生损失,则在输入x经过时间掩蔽增强后,通过L1损失函数比较原始梅尔频谱图y与模型预测的增强后梅尔频谱图;组合损失函数形式如下: ; 其中。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人贵州师范大学,其通讯地址为:550001 贵州省贵阳市云岩区宝山北路116号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励