山西大学徐丽云获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉山西大学申请的专利一种基于双路UNET的分数域信息交互的语音增强方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116052716B 。
龙图腾网通过国家知识产权局官网在2025-08-22发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310063213.8,技术领域涉及:G10L25/30;该发明授权一种基于双路UNET的分数域信息交互的语音增强方法是由徐丽云;张彤设计研发完成,并于2023-01-17向国家知识产权局提交的专利申请。
本一种基于双路UNET的分数域信息交互的语音增强方法在说明书摘要公布了:本发明涉及一种基于双路UNET的分数域信息交互的语音增强方法。包括:收集纯净的语音和噪声;将收集到的数据按照目标信噪比混合,提取相应的幅度谱特征和相位谱特征和含噪语音的分数域特征作为网络输入;由幅度谱计算网络的训练目标:语音掩码与噪声掩码;构建基于语音和噪声信息交互的网络模型和基于时域谱、频域谱、语音噪声掩码的损失函数;将处理好的分数域特征输入网络,最小化损失函数反向传播,优化网络模型中的参数;提取待增强语音信号的分数域特征,输入训练好的网络并输出目标,由幅度谱和相位谱重构增强的信号。本发明通过不同阶次分数域表征更多语音特征,并在双路分支之间建立语音和噪声的信息交互协同工作,达到更好的语音增强效果。
本发明授权一种基于双路UNET的分数域信息交互的语音增强方法在权利要求书中公布了:1.一种基于双路UNET的分数域信息交互的语音增强方法,其特征在于,包括以下步骤: (1)收集训练集语音,包括纯净的说话人语音s,和噪声数据n; (2)训练数据和训练特征提取,将收集到的语音和噪声按照目标信噪比进行混合,并提取语音、噪声、含噪语音的幅度谱特征、相位谱特征和含噪语音的分数域特征作为网络模型的输入数据; (3)训练目标提取,根据步骤(2)中得到的幅度谱计算网络的训练目标:语音掩码与噪声掩码; (4)构建基于双路UNET的语音和噪声信息交互的网络模型和基于时域谱、频域谱、语音噪声掩码的损失函数; (5)训练模型,将步骤(2)中处理好的分数域特征输入网络模型进行训练,得到的网络固化出来用于后续预测结果; (6)测试结果,将待增强语音信号根据步骤(2)提取分数域特征,将特征输入步骤(5)训练好的网络模型进行预测,输出估计语音掩码和噪声掩码,结合步骤(2)中得到的幅度谱和相位谱重构得到预测增强的语音信号; 所述步骤(4)中构建的基于语音和噪声信息交互的网络模型包含语音通道、噪声通道,其中语音通道和噪声通道具有相同的网络结构,包含编码层、残差多头自注意力模块和解码层,中间穿插交互模块进行语音和噪声的信息互通,最后对两路通道的估计结果进行融合,根据损失函数反向传播调整神经网络的权重和偏置,使神经网络达到全局最优解,神经网络模型训练完成,将训练好的权重固化出来,供每次算法调用。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人山西大学,其通讯地址为:030006 山西省太原市小店区坞城路92号山西大学科技楼803;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。