恭喜中国海洋大学张怀峰获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜中国海洋大学申请的专利一种基于薛定谔桥的扩散模型语音增强方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120032650B 。
龙图腾网通过国家知识产权局官网在2025-07-01发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510509991.4,技术领域涉及:G10L19/008;该发明授权一种基于薛定谔桥的扩散模型语音增强方法及系统是由张怀峰;候进东;张浩;纪媛媛;王小东设计研发完成,并于2025-04-23向国家知识产权局提交的专利申请。
本一种基于薛定谔桥的扩散模型语音增强方法及系统在说明书摘要公布了:本发明属于语音增强技术领域,公开了一种基于薛定谔桥的扩散模型语音增强方法及系统,该方法将扩散模型的扩散过程转化为随机微分方程的求解过程,并依据薛定谔桥的理论原理,确定随机微分方程,而且直接将复数谱作为扩散模型的输入,省去了从复数谱中提取相位谱和幅度谱的繁琐工作以及逆变换带来的内存开销,同时也避免了相位谱和幅度谱之间的对齐问题。本发明的语音增强方法通过Transformer模块捕捉时序信号的独特特征,再利用U‑Net模块融合多尺度信息,搭配涵盖时域、频域和时频域的损失函数,逐步缩小预测样本与干净样本的差异,能够直接学习从带噪样本到干净样本的非线性扩散过程,从而保留更多初始样本的结构信息。
本发明授权一种基于薛定谔桥的扩散模型语音增强方法及系统在权利要求书中公布了:1.一种基于薛定谔桥的扩散模型语音增强方法,其特征在于,包括如下步骤: 步骤1.将扩散模型的扩散过程转化为随机微分方程的求解过程; 步骤2.依据薛定谔桥的理论原理确定随机微分方程,利用方差爆炸设置随机微分方程中的扩散函数和漂移函数,进而得到随机微分方程的解的表示形式; 步骤3.通过Transformer模块和U-Net模块搭建预测网络模型,预测网络模型用于输出预测样本即随机微分方程的解的表示形式中涉及扩散过程的过程量; 步骤4.引入复数谱、幅值谱、相位谱、时域信号以及时域信号的度量参数的损失函数,对预测网络模型进行训练; 步骤5.对输入的带噪语音利用到训练好的预测网络模型输出预测样本,并根据随机微分方程的解的表示形式得到增强语音; 所述步骤3中,在输入Transformer模块前进行预处理操作,将带噪语音即带噪样本进行归一化处理和短时傅里叶变换STFT,得到复数谱首次迭代时将xt初始化为y,其中xt表示t时刻的状态,B代表批次大小,T0代表时域帧数,F代表傅里叶长度; 将与带噪样本的复数谱进行整合,得到混合复数谱 通过多维张量在预设维度上进行重组的方式,将混合复数谱xin重塑为 Transformer模块包括归一化层、多头自注意力机制MHSA、全连接网络FFN、正则化Dropout层,将输入Transformer模块后输出为 所述步骤3中,U-Net模块包括七个下采样模块和七个上采样模块; 每个下采样模块包括两个分支,下采样模块的第一分支包括两个残差块和一个下采样块,下采样模块的第二分支包括一个下采样操作模块; 每个上采样模块包括两个分支,上采样模块的第一分支包括三个残差块和一个上采样块,上采样模块的第二分支包括一个上采样操作模块; 信号在U-Net模块中的处理流程如下: 将Transformer模块的输出xout作为U-Net模块的输入,输入U-Net模块中的xout首先经过卷积网络将通道数增长为128,得到将X经过U-Net模块中七个下采样模块和七个上采样模块处理后得到的输出作为预测网络模型Fθ的输出xθ。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中国海洋大学,其通讯地址为:266100 山东省青岛市崂山区松岭路238号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。