上海交通大学钱彦旻获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉上海交通大学申请的专利一种环境感知的可控背景去除和保留的语音合成系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119943028B 。
龙图腾网通过国家知识产权局官网在2025-11-11发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510121489.6,技术领域涉及:G10L13/08;该发明授权一种环境感知的可控背景去除和保留的语音合成系统是由钱彦旻;张乐莹;陈正阳;张王优设计研发完成,并于2025-01-24向国家知识产权局提交的专利申请。
本一种环境感知的可控背景去除和保留的语音合成系统在说明书摘要公布了:本发明公开了一种环境感知的可控背景去除和保留的语音合成系统,涉及语音领域,本发明提出了一个能够根据带噪提示语音感知声学环境,从而进行可控背景去除和保留的语音合成系统,以文本、提示语音和任务相关的控制信号作为输入,包含时长预测器、声学模型和双重提示语音编码器,在训练策略上,基于流匹配算法,进一步提出了可控的掩码语音预测训练策略,通过提供带噪的提示语音实现可控的背景去除和保留。本发明提高了系统处理带噪、混响和干扰说话人的提示语音的鲁棒性和可控性,能够在生成语音时有效地控制提示语音中含有的背景的去除与保留,实现更高的生成语音质量和更相似的声学背景。
本发明授权一种环境感知的可控背景去除和保留的语音合成系统在权利要求书中公布了:1.一种环境感知的可控背景去除和保留的语音合成系统,其特征在于,本发明提出了一个能够根据带噪提示语音感知声学环境,从而进行可控背景去除和保留的语音合成系统,以文本、提示语音和任务相关的控制信号作为输入,包含时长预测器、声学模型和双重提示语音编码器,在训练策略上,基于流匹配算法,进一步提出了可控的掩码语音预测训练策略,通过提供带噪的提示语音实现可控的背景去除和保留; 所述文本用于控制所合成语音的内容,所述提示语音用于控制合成语音的说话人音色和声学背景,所述任务相关的控制信号用于控制合成的语音为干净语音或合成的语音拥有与提示语音相似的声学背景,其中,干净语音即无声学背景的语音; 所述声学模型建模了条件分布,根据音素序列和提示生成梅尔谱图,所述声学模型作为向量场估计器,在每个时间戳,预测一个随机选取的掩码部分,同时将可见部分视为提示;所述声学模型的训练目标为所描述,其中网络的输出为,步骤的流被记为,而是从正态分布中采样的高斯噪声,是控制流匹配偏差的超参数; 所述时长预测器和所述声学模型都在训练和测试过程中都采用无分类器引导策略CFG以平衡模式覆盖和样本保真度;在所述声学模型的训练过程中,声学提示和音素序列以概率被随机丢弃;在推理过程中,所述声学模型首先从正态分布中采样一个高斯噪声,并使用ODE求解器评估流;CFG策略下修改后的向量场变为公式,其中是控制引导强度的超参数; 所述时长预测器建模了条件分布,其中是每个音素的预测时长序列,给定输入的音素索引序列和提示,因此,所述时长预测器的训练目标和推理过程则分别为公式和公式; 所述声学模型提出了一种新的可控掩码语音预测策略,将背景去除和保留任务统一为掩码预测问题,通过引入任务相关的控制信号,指导系统在背景去除与保留之间进行精确切换,实现双重目标控制。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人上海交通大学,其通讯地址为:200240 上海市闵行区东川路800号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励