武汉大学任延珍获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉武汉大学申请的专利基于注意力机制的声音事件样本混合方法及装置获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116013361B 。
龙图腾网通过国家知识产权局官网在2025-09-16发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211573883.6,技术领域涉及:G10L25/51;该发明授权基于注意力机制的声音事件样本混合方法及装置是由任延珍;刘武洋;王靖茹;涂卫平;杨玉红设计研发完成,并于2022-12-08向国家知识产权局提交的专利申请。
本基于注意力机制的声音事件样本混合方法及装置在说明书摘要公布了:本发明公开了一种基于注意力机制的声音事件样本混合方法及装置,在音频分类任务上,样本混合是一种有效的数据增强方法。原有的样本混合方案直接混合两个随机样本的波形,这不仅忽略了声音事件的时间分布,而且还可能干扰另一个样本中的原始声音事件。本文提出了基于注意力机制的样本混合方案,它只选择那些含有声音事件的片段进行混合,而不是简单地混合整个样本。该方案利用预先训练好的音频分类模型的注意力图,过滤出频谱图上对分类有用的部分,然后选择区域进行混合。该方案能够显著提升音频分类的准确率+1.9mAP,尤其能够将短事件0.1s至2s的分类准确率平均提高6.8%,同时保持对长事件的分类准确率。
本发明授权基于注意力机制的声音事件样本混合方法及装置在权利要求书中公布了:1.基于注意力机制的声音事件样本混合方法,其特征在于,包括: S1:获取原始音频样本,构建为训练数据集; S2:对训练数据集中的每一个音频样本提取出对数梅尔频谱; S3:将音频样本的对数梅尔频谱输入预训练的基于注意力机制的音频分类模型,对音频样本进行分类,得到音频样本的注意力图,其中,注意力图包括多个权重,用以描述每个输入特征对其他所有输入特征的重要性,权重值的高低表示输出特征从对应位置的输入特征获取信息的多少,每一个输入特征对应一个块; S4:根据音频样本的注意力图中权重值的大小,选取N个权重值最大对应的块作为锚块,并将锚块的中心点作为锚点,N为正整数; S5:根据所选择的锚点和预先设定的阈值,将注意力图转化为0-1掩蔽图,0-1掩蔽图的形状与音频样本的对数梅尔频谱一致; S6:从训练数据集中随机选择两个音频样本,根据其中一个音频样本的0-1掩蔽图,对随机选择出的两个音频样本进行混合。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人武汉大学,其通讯地址为:430072 湖北省武汉市武昌区珞珈山街道八一路299号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。