厦门大学李琳获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉厦门大学申请的专利一种基于伪标签信号生成的弱监督目标说话人提取方法和系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN121483262B 。
龙图腾网通过国家知识产权局官网在2026-03-17发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202610033200.X,技术领域涉及:G10L17/04;该发明授权一种基于伪标签信号生成的弱监督目标说话人提取方法和系统是由李琳;罗龙杰;洪青阳设计研发完成,并于2026-01-12向国家知识产权局提交的专利申请。
本一种基于伪标签信号生成的弱监督目标说话人提取方法和系统在说明书摘要公布了:公开了一种基于伪标签信号生成的弱监督目标说话人提取方法和系统,包括获取待处理的远场多通道混合音频以及对应的目标说话人时间戳;将远场多通道混合音频的幅度谱沿通道维度拼接,映射为语音编码隐特征;根据目标说话人时间戳,从远场多通道混合音频的参考通道中切分出目标说话人活跃的语音片段;计算语音片段的说话人嵌入向量,并进行维度扩展,得到目标说话人嵌入特征;将语音编码隐特征与目标说话人嵌入特征融合,输入至目标说话人提取模型中进行特征提取,得到目标说话人语音特征;将目标说话人语音特征映射为幅度谱掩膜,将掩膜作用于参考通道的幅度谱,结合参考通道的相位进行逆变换,得到目标说话人干净语音。
本发明授权一种基于伪标签信号生成的弱监督目标说话人提取方法和系统在权利要求书中公布了:1.一种基于伪标签信号生成的弱监督目标说话人提取方法,其特征在于,包括: S1:获取待处理的远场多通道混合音频以及对应的目标说话人时间戳;将所述远场多通道混合音频的幅度谱沿通道维度拼接,映射为语音编码隐特征; S2:根据所述目标说话人时间戳,从所述远场多通道混合音频的参考通道中切分出目标说话人活跃的语音片段;计算所述语音片段的说话人嵌入向量,并进行维度扩展,得到目标说话人嵌入特征; S3:将所述语音编码隐特征与所述目标说话人嵌入特征融合,输入至目标说话人提取模型中进行特征提取,得到目标说话人语音特征; S4:将所述目标说话人语音特征映射为幅度谱掩膜,将所述掩膜作用于所述参考通道的幅度谱,结合参考通道的相位进行逆变换,得到目标说话人干净语音; 所述目标说话人提取模型基于实录数据集生成的伪标签信号进行弱监督训练获得,训练过程包括: 获取包含同步采集的远场混合音频、目标说话人近讲录音及时间戳的实录数据集; 根据所述时间戳将近讲录音中非目标说话人活跃部分置零,利用广义互相关-相位变换加权算法计算置零后的近讲录音与远场混合音频之间的时延点数并进行时延补偿,得到时域对齐信号; 对所述时域对齐信号进行多帧线性滤波,使其幅值与远场混合音频对齐,生成所述伪标签信号; 将所述远场混合音频输入待训练模型,以所述伪标签信号为监督目标,计算损失函数并更新模型参数; 所述损失函数为幅度谱复合损失,具体计算公式为:,其中,均方误差损失,目标感知余弦相似度损失,T表示总时间帧数,F表示总频率点数,和分别表示模型输出以及伪标签信号的STFT系数,表示指示函数,用于判断目标信号是否存在,当伪标签信号为非静音片段时取值为1,否则取值为0,作为调节因子,用于调整在损失值中的占比。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人厦门大学,其通讯地址为:361000 福建省厦门市思明区思明南路422号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励