浙江工业大学黄文泉获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉浙江工业大学申请的专利基于分块特征融合和双路径Transformer的目标语音提取方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119993180B 。
龙图腾网通过国家知识产权局官网在2025-10-21发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510085354.9,技术领域涉及:G10L21/0208;该发明授权基于分块特征融合和双路径Transformer的目标语音提取方法是由黄文泉;鲍俊洁;黄国兴;卢为党;张昱设计研发完成,并于2025-01-20向国家知识产权局提交的专利申请。
本基于分块特征融合和双路径Transformer的目标语音提取方法在说明书摘要公布了:一种基于分块特征融合和双路径Transformer的目标语音提取方法,首先利用分块特征融合的方法,使每一段分块都能获取完整的目标说话人参考语音特征,提升了特征的利用率;然后使用双路径Transformer对信号进行全局和局部建模,高效提取目标说话人语音信息;最后预训练目标说话人参考语音特征提取网络,提升训练效率,并通过多任务学习共同优化整个网络中的各个组件,使提取效果达到最佳。本发明方法实现了目标说话人语音提取,相比于现有的提取方法,模型参数量更低,提取速度更快,并且实现了更高的提取纯净度。
本发明授权基于分块特征融合和双路径Transformer的目标语音提取方法在权利要求书中公布了:1.一种基于分块特征融合和双路径Transformer的目标语音提取方法,其特征在于,所述方法包括以下步骤: 步骤一,对混合音频进行卷积编码,将语音信息转换为特征表示,使用可训练的卷积核对语音进行编码,通过训练优化特征表示来达到最佳效果,输入混合语音信号y,输出混合语音特征矩阵Y; 步骤二,对目标说话人参考语音进行卷积编码并提取其特征序列,多尺度卷积可以获取不同分辨率的特征,并通过降低特征维度简化特征表达,输入目标说话人参考语音s,输出目标说话人语音特征 步骤三,对混合音频特征和参考语音特征进行分块并进行分块级的特征融合,提高参考特征的利用率,使提取过程能更精准识别说话人声音;输入混合语音特征矩阵Y、目标说话者语音特征输出特征融合矩阵E; 步骤四,使用双路径Transformer处理融合后的特征,通过对融合特征计算多头注意力,进行局部和全局的建模,从而实现目标说话人准确的识别与提取,最后生成只允许目标说话人语音信息通过的掩码矩阵,输入特征融合矩阵E,输出目标说话人掩码Mask; 步骤五,混合音频特征与提取掩码进行调制,滤除与说话人无关的语音特征,对调制响应特征解码,由特征恢复时域信号,获取目标语音,输入混合语音编码特征矩阵Y、目标说话人掩码Mask,输出提取的目标说话人语音 步骤六,对参考特征提取网络进行预训练,加快训练收敛速度,使用多任务学习对网络整体进行共同优化,将网络调整到最佳状态,输入目标说话者语音特征Y、目标说话人语音提取结果输出预训练参考特征提取网络、多任务学习loss。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人浙江工业大学,其通讯地址为:310014 浙江省杭州市拱墅区朝晖六区潮王路18号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励