中山大学·深圳;中山大学姬艳丽获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉中山大学·深圳;中山大学申请的专利无监督混合音频跨模态分离方法、系统、设备及存储介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119541523B 。
龙图腾网通过国家知识产权局官网在2025-11-28发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411558075.1,技术领域涉及:G10L21/0272;该发明授权无监督混合音频跨模态分离方法、系统、设备及存储介质是由姬艳丽设计研发完成,并于2024-11-04向国家知识产权局提交的专利申请。
本无监督混合音频跨模态分离方法、系统、设备及存储介质在说明书摘要公布了:本发明公开了无监督混合音频跨模态分离方法、系统、设备及存储介质,方法包括:视频内声源物体检测,采用目标检测算法提取视频中的目标物体和视觉特征;音视频数据预处理;跨模态音视语义对齐学习,包括音频视频语义一致性学习和音频视觉交叉注意力学习;无监督混合音频初步分离,获取若干分离后的音频信号;独立对抗学习,构建信号库,设置损失函数来拉近音频解码器生成信号的联合分布与随机抽选信号库中的样本之间联合分布的差异,以训练U‑Net音频解码器生成相互独立的分离音频信号;视觉指导的无监督音频分离。本发明方法基于独立对抗学习,兼顾混合音频分离后产生的单一音源的独立性和音源之间的呼应关联性,实现无监督混合音频分离。
本发明授权无监督混合音频跨模态分离方法、系统、设备及存储介质在权利要求书中公布了:1.一种无监督混合音频跨模态分离方法,其特征在于,包括以下步骤: 视频内声源物体检测,对包含多个声源的音频混合信号的视频,采用目标检测算法提取视频中的目标物体和视觉特征; 音视频数据预处理,对音频混合信号进行处理获取混合音频特征; 跨模态音视语义对齐学习,包括音频视觉语义一致性学习和音频视觉交叉注意力学习;通过音频视觉语义一致性学习进行语义对齐并增强音视两个模态的语义表达能力;通过音频视觉交叉注意力学习,进一步提炼音视模态的特征语义; 无监督混合音频初步分离,采用U-Net作为音频解码器获取若干分离后的音频信号; 独立对抗学习,通过从不同混合音频中分离出的音频信号中随机抽取信号来构建信号库,设置损失函数LG来拉近音频解码器生成信号的联合分布与随机抽选信号库中的样本之间联合分布,以训练U-Net音频解码器生成相互独立的分离音频信号; 视觉指导的无监督音频分离,以视觉目标物体为虚拟监督标签,设置音视语义一致判别损失函数,训练U-Net音频解码器生成与目标物体对应的音频信号,实现将混合音频准确地分离; 视觉指导的无监督音频分离具体为: 以视觉目标物体为虚拟监督标签,设置音视语义一致判别损失函数Lcon,训练音频解码器生成与目标物体对应的音频信号,将混合音频准确分离; 音视语义一致判别损失函数Lcon具体为: 其中,函数表示全连接卷积和类别映射,用来对视觉信息和分离出的音频信息进行类别判断;表示声源目标物体,表示分离后音频信号; 最终用于训练U-Net音频解码器的完整损失函数L的定义为: L=Lav+λ1Lsep+λ2LG+LD+λ3Lcon; 其中,λ1,λ2,λ3代表损失函数参数;Lav为音频视觉语义一致性学习过程中的对比学习损失函数;Lsep为一个损失函数,设置损失函数Lsep以通过设置信噪比来评估由U-Net音频解码器生成分离后音频信息的完整性和质量;LD为一个独立判决损失函数,用于扩大音频解码器生成信号的联合分布与随机抽选信号库中的样本之间联合分布的分布差异。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中山大学·深圳;中山大学,其通讯地址为:518107 广东省深圳市光明区公常路66号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励