Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 积分商城 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 东南大学邓宇汐获国家专利权

东南大学邓宇汐获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉东南大学申请的专利基于复空间角中心高斯混合聚类模型和双向长短时记忆网络的波束成形语音分离方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115713943B

龙图腾网通过国家知识产权局官网在2025-12-30发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211413063.0,技术领域涉及:G10L21/0208;该发明授权基于复空间角中心高斯混合聚类模型和双向长短时记忆网络的波束成形语音分离方法是由邓宇汐;周琳;程云苓;王启瑞;许越;曹焱翔;庄程浩设计研发完成,并于2022-11-11向国家知识产权局提交的专利申请。

基于复空间角中心高斯混合聚类模型和双向长短时记忆网络的波束成形语音分离方法在说明书摘要公布了:本发明公布了一种基于复空间角中心高斯混合聚类模型和双向长短时记忆网络的波束成形语音分离方法。训练阶段,计算参考通道训练语音信号的对数功率谱、参考通道训练语音信号与其余通道训练语音信号之间相位差的正弦和余弦值,作为双向长短时记忆网络的输入特征。基于复空间角中心高斯混合聚类模型,计算各目标声源的掩蔽值,作为双向长短时记忆网络的训练目标,损失函数采用均方误差损失。测试阶段,根据双向长短时记忆网络输出的各目标声源在参考通道测试语音信号中的掩蔽估计值,计算多通道测试语音信号的协方差矩阵并进行广义特征值分解,基于各目标声源预期信噪比增益最大化准则,得到各目标声源的波束成形器系数,从而分离得到各目标声源。

本发明授权基于复空间角中心高斯混合聚类模型和双向长短时记忆网络的波束成形语音分离方法在权利要求书中公布了:1.一种基于复空间角中心高斯混合聚类模型和双向长短时记忆网络的波束成形语音分离方法,其特征在于,该方法包括以下步骤: 步骤1、包含噪声和混响的多通道训练语音信号,通过分帧、加窗、短时傅里叶变换、取对数运算和去混响预处理后,计算参考通道训练语音信号的对数功率谱、参考通道训练语音信号与其余通道训练语音信号之间相位差的正弦与余弦值; 步骤2、利用步骤1计算的参考通道训练语音信号的对数功率谱,基于期望最大化迭代算法,得到训练语音信号基于复空间角中心高斯混合聚类模型参数,估计各目标声源在参考通道训练语音信号中的掩蔽值; 步骤3、将步骤1计算的参考通道训练语音信号的对数功率谱、参考通道训练语音信号与其余通道训练语音信号之间相位差的正弦与余弦值,作为双向长短时记忆网络的输入特征,将步骤2中各目标声源在参考通道训练语音信号的掩蔽值作为双向长短时记忆网络的训练目标,基于均方误差损失函数训练双向长短时记忆网络; 步骤4、包含噪声和混响的多通道测试语音信号,通过分帧、加窗、短时傅里叶变换、取对数运算和去混响预处理后,计算参考通道测试语音信号的对数功率谱、参考通道测试语音信号与其余通道测试语音信号之间相位差的正弦与余弦值,同时短时傅里叶变换得到多通道测试语音信号的相位谱; 步骤5、将步骤4中参考通道测试语音信号的对数功率谱、参考通道测试语音信号与其余通道测试语音信号之间相位差的正弦与余弦值,作为步骤3训练得到的双向长短时记忆网络的输入特征,输出各目标声源在参考通道测试语音信号中的掩蔽值; 步骤6、根据步骤5中双向长短时记忆网络输出的掩蔽值,以及步骤4的多通道测试语音信号,计算多通道测试语音信号的协方差矩阵,基于给定目标声源在波束形成器输出处的预期信噪比增益最大化准则,得到各目标声源的波束成形器系数;波束成形器与多通道测试语音信号卷积后,结合步骤4中多通道测试语音数据的相位谱,得到分离后的目标语音信号频谱,经过短时傅里叶逆变换,得到目标语音信号的时域波形; 步骤2中基于复空间角中心高斯混合聚类模型对训练语音信号进行建模,计算参考通道训练语音信号中各目标声源信号的掩蔽值;复空间角中心高斯混合模型的概率密度函数表示式为: 其中,是复空间角中心高斯混合聚类模型参数,为多通道训练语音信号的短时傅里叶变换,||||为二范数运算,k表示的是第k个声源,取值范围为[1,K],K为声源数目,为复空间角中心高斯分布,其表达式为: 其中,det为矩阵的行列式运算,M为通道数目,!表示阶乘运算,H表示转置运算; 步骤3中将基于复空间角中心高斯混合聚类模型计算的掩蔽值和双向长短时记忆网络输出的掩蔽估计值之间的均方误差作为损失函数训练双向长短时记忆网络: 其中,训练数据在双向长短时网络输出的第t帧、f频点上的第k个声源的掩蔽估计值,是训练数据基于复空间角中心高斯混合聚类模型参数计算的第k个声源掩蔽值; 步骤6中基于给定目标声源在波束形成器输出处的预期信噪比增益最大化为准则,得到每个声源的波束成形系数具体包括以下步骤: 在计算某个目标声源i时,将其它声源视为噪声,对于每一个时频点,使用时域平均代替统计平均,得到目标声源i的协方差矩阵和噪声协方差矩阵的计算公式: 其中,Ttest是计算协方差阵使用的测试数据帧数,为多通道测试语音信号的短时傅里叶变换,H为矩阵转置,是测试数据在双向长短时记忆网络输出的第t帧、f频点上第i个声源的掩蔽估计值,i,k的取值范围为[1,K],K为声源数目; 广义特征值分解波束形成器,使得给定目标声源在波束形成器输出处的预期信噪比增益最大化,进而得到目标声源i的波束成形器系数 根据第i个目标声源的波束成形器系数得到第i个目标声源时频谱的计算公式: 其中,H表示转置运算。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人东南大学,其通讯地址为:211102 江苏省南京市江宁区东南大学路2号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。