Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 积分商城 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 浙江大学杨莹春获国家专利权

浙江大学杨莹春获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉浙江大学申请的专利一种基于增强解耦的可迭代优化的多成分语音转换方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119580750B

龙图腾网通过国家知识产权局官网在2025-09-26发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411709049.4,技术领域涉及:G10L21/007;该发明授权一种基于增强解耦的可迭代优化的多成分语音转换方法是由杨莹春;陈宫煜;尹建伟设计研发完成,并于2024-11-27向国家知识产权局提交的专利申请。

一种基于增强解耦的可迭代优化的多成分语音转换方法在说明书摘要公布了:本发明公开了一种基于增强解耦的可迭代优化的多成分语音转换方法,利用带有信息瓶颈的多通道编码器组分别提取语音中的节奏、内容、音色信息以及音高轮廓中的音高信息并使用解码器联合编码器组生成语音,采用随机重采样和音高增强来选择性地消除流入编码器中的节奏或音高信息,然后通过协同音高轮廓重建、对抗说话人分类器组、内容特征重建以及内容特征‑节奏特征互信息最小化的多任务训练方法增强模型的语音解纠缠能力。此外,本发明通过两阶段方法简化了训练过程,提高了模型的收敛效率,旨在实现高质量的多成分语音转换,以解决传统语音转换方法仅能解耦音色而其他语音成分仍然纠缠在一起的问题。

本发明授权一种基于增强解耦的可迭代优化的多成分语音转换方法在权利要求书中公布了:1.一种基于增强解耦的可迭代优化的多成分语音转换方法,包括如下步骤: 1获取语音数据集,对其中的每条语音进行音高增强处理并提取音高轮廓以及梅尔语谱; 2构建多成分语音转换模型,其包括: 联合随机重采样模块,用于对音高轮廓以及音高增强的梅尔语谱在时间维度上进行联合随机重采样; 带有信息瓶颈的多通道编码器组,根据音高轮廓以及梅尔语谱提取出对应内容、节奏、音色、音高的语音成分特征; 梅尔语谱解码器,联合所有语音成分特征重建生成新的梅尔语谱Xrec; 辅助音高轮廓解码器,联合音高和节奏的语音成分特征重建生成新的音高轮廓Prec; 对抗说话人分类器组,分别根据音色的语音成分特征以及节奏、内容、音高的联合语音成分特征对说话人进行分类识别; 互信息参数化网络,通过联合内容及节奏的语音成分特征近似模拟两者之间的真实条件分布; 3利用语音数据集通过两阶段多任务协同训练方法对上述模型进行训练;所述两阶段多任务协同训练方法中第一阶段启动的梅尔语谱重建、音高轮廓重建、对抗说话人分类用于初步训练模型语音成分的解耦能力,第二阶段启动的内容特征重建、内容-节奏特征互信息变分上界最小化在第一阶段基础上进一步优化模型解耦性能,提高模型的收敛效率;该训练方法采用的目标函数由六组损失函数L1~L6加权求和得到,且每进行一次互信息变分上界最小化训练任务,则对其中的互信息参数化网络进行五次最大似然训练; 所述损失函数L1和L2分别为梅尔语谱和音高轮廓的重建损失函数,具体表达式如下: 其中:X为原始语音的梅尔语谱,P为原始语音的音高轮廓,E为期望函数; 所述损失函数L3和L4分别为正分类器和负分类器的分类损失函数,具体表达式如下: 其中:I为指示函数即括号中的关系为真时取1,为假时取0;pk为正分类器或负分类器输出预测结果中属于第k类的概率值,K为数据集中的说话人数量,Numtrue为输入样本对应的真实说话人编号; 所述损失函数L5为内容特征的重建损失函数,其表达式如下: 其中:crec为梅尔语谱Xrec输入至内容编码器中重建生成的内容特征编码矩阵,E为期望函数,c为经随机重采样后的梅尔语谱输入至内容编码器中重建生成的内容特征编码矩阵; 所述损失函数L6为内容-节奏特征互信息变分上界最小化损失函数,其表达式如下: 其中:N为一个batch的样本数量,i和j为样本索引号,qθci|ri为由互信息参数化网络模拟真实分布pci|ri得到的互信息变分近似分布,真实分布pci|ri表示给定ri的条件下ci的条件概率,ri为第i个样本的节奏特征编码矩阵,ci为第i个样本的内容特征编码矩阵; 4利用pwCCA对模型各语音成分的解耦能力进行评估,根据评估结果调节各个解耦损失之间的权重,重新训练模型对其进行迭代优化; 5根据实际的语音成分转换需求,将源语音和目标语音的音高轮廓以及梅尔语谱输入至训练好的模型中以重建生成新的梅尔语谱Xrec,进而将Xrec输入至预训练好的声码器中即可生成所需的转换语音。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人浙江大学,其通讯地址为:310058 浙江省杭州市西湖区余杭塘路866号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。