杜比实验室特许公司;杜比国际公司刘晓宇获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉杜比实验室特许公司;杜比国际公司申请的专利用于源分离的帧级置换不变训练获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116348953B 。
龙图腾网通过国家知识产权局官网在2026-03-06发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202180070431.3,技术领域涉及:G10L21/0308;该发明授权用于源分离的帧级置换不变训练是由刘晓宇;J·庞斯普吉设计研发完成,并于2021-10-13向国家知识产权局提交的专利申请。
本用于源分离的帧级置换不变训练在说明书摘要公布了:描述了一种训练用于声源分离的基于深度学习的系统的方法。该系统包括用于从音频信号的表示中逐帧提取声源表示的分离级,以及用于为每个帧生成指示所提取的声源表示的帧到相应声源的分配置换的向量的聚类级。音频信号的表示是基于波形的表示。分离级使用帧级置换不变训练来进行训练。此外,聚类级被训练为音频信号的帧生成嵌入向量,其允许确定所提取的声音信号和已用于帧的声源的标签之间的相应分配置换的估计。还描述了一种使用基于深度学习的系统进行声源分离的方法。
本发明授权用于源分离的帧级置换不变训练在权利要求书中公布了:1.一种训练用于声源分离的基于深度学习的系统的计算机实现的方法,其中该系统包括基于深度学习的分离级,其用于从音频信号的表示中逐帧提取声源的表示,以及聚类级,其用于对于每个帧,生成在候选分配置换中的所提取的声源的表示的帧到相应声源的分配置换的估计,其中音频信号的表示是基于波形的表示,并且其中所述基于波形的表示是适合于基于波形的模型的时域表示或者所述时域表示的不同于时频变换的变换,该方法包括: 作为输入,获得混合音频信号的表示和至少两个参考音频信号的表示,其中表示是基于波形的表示,并且其中所述基于波形的表示是适合于基于波形的模型的时域表示或者所述时域表示的不同于时频变换的变换,其中混合音频信号包括至少两个声源,并且其中参考音频信号对应于包括在混合音频信号中的声源中的相应声源;以及 将混合音频信号的表示和至少两个参考音频信号的表示输入到分离级,并且训练分离级以如下方式从混合音频信号的表示中提取声源的表示:对于混合音频信号的表示的每一帧,差函数被最小化,其中差函数基于所提取的声源的表示的帧和参考音频信号的表示的帧之间的差值,其中成对的所提取的声源的表示的帧和参考音频信号的表示的帧基于候选分配置换之一被选择,以便取得该差值,并且其中对于每个帧,为了用于计算差函数,所提取的声源的表示和参考音频信号的表示的这种分配置换被选择为导致最小差函数, 其中聚类级对于每个帧生成指示相应分配置换的估计的向量;并且 其中该方法还包括: 输入混合音频信号的表示,并且对于混合音频信号的表示的每个帧,输入所提取的声源的表示的帧以及已经对于混合音频信号的表示的相应帧被选择的分配置换的指示到聚类级,并且训练聚类级以如下方式生成指示所提取的声源的表示的帧到相应声源的分配置换的向量:混合音频信号的帧的向量组之间的分离被最大化,其中帧的向量根据由这些向量指示的相应分配置换来分组, 其中聚类级被训练为使得分离准则针对混合音频信号的表示的每个帧被优化;并且 其中,分离准则基于向量和或向量组之间的欧几里德距离。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人杜比实验室特许公司;杜比国际公司,其通讯地址为:美国加利福尼亚;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励