国网浙江省电力有限公司营销服务中心;浙江大学孙钢获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉国网浙江省电力有限公司营销服务中心;浙江大学申请的专利一种基于最大池化自注意力机制的声纹识别方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116072127B 。
龙图腾网通过国家知识产权局官网在2025-08-12发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211733131.1,技术领域涉及:G10L17/18;该发明授权一种基于最大池化自注意力机制的声纹识别方法及系统是由孙钢;沈然;沈皓;李伊玲;汪一帆;徐世予;章江铭;章一新;项莹洁;佘清顺设计研发完成,并于2022-12-30向国家知识产权局提交的专利申请。
本一种基于最大池化自注意力机制的声纹识别方法及系统在说明书摘要公布了:本发明公开了一种基于最大池化自注意力机制的声纹识别方法及系统。本发明的方法包含如下步骤:提取音频特征序列;使用卷积神经网络对音频特征序列进行降采样处理;使用基于最大池化自注意力机制的Transformer编码器进行训练;对Tranformer编码器的输出进行正则化;使用统计注意力聚合的方法提取说话人声纹编码;使用角度原型损失函数最小化训练损失。相比于传统Transformer进行声纹识别,本发明对Transformer的自注意力机制做了改进,在相似度矩阵中引入最大池化操作,提高自注意力机制对局部信息的建模能力;本发明较原始Transformer更适合进行声纹识别,准确率更高。
本发明授权一种基于最大池化自注意力机制的声纹识别方法及系统在权利要求书中公布了:1.一种基于最大池化自注意力机制的声纹识别方法,其特征在于,包括步骤: S1:输入音频Α,提取音频特征序列,得到序列T; S2:使用卷积神经网络对步骤S1得到的序列T进行降采样处理,得到降采样后的序列S; S3:将步骤S2得到的序列S输入基于最大池化自注意力机制的Transformer编码器中进行训练,得到输出序列O; S4:对步骤S3得到的输出序列O进行正则化,得到正则化之后的序列L; S5:使用统计注意力聚合的方法从步骤S4得到的序列L中提取说话人声纹编码e; S6:根据步骤S5得到的说话人声纹编码e整理成声纹编码集合,计算每个说话人的声纹编码特征中心点;根据每个说话人的声纹编码特征中心点,计算当前说话人第M条声纹编码与所有说话人的声纹编码特征中心点的余弦相似度组成的相似度矩阵;根据相似度矩阵,使用角度原型损失函数优化训练过程中的损失,使其最小化; 所述步骤S3使用Transformer编码器进行训练时的自注意力机制过程如下: S3-1:通过对步骤S2得到的序列S进行投影得到查询集Q、键值集K和价值集V,过程如下: Q=SWQ K=SWK V=SWV 其中,WQ、WK、WV分别为第一可学习参数、第二可学习参数、第三可学习参数; S3-2:通过查询集Q和键值集K计算得到相似度矩阵Λ,计算过程如下: 式中,T表示转置;dk表示K的维度大小; S3-3:对步骤S3-2得到的矩阵Λ引入卷积核大小为2×2的最大池化操作,得到每个卷积核内相似度分数最大的元素的位置信息集合P={p1,p2,…,pN},其中N为位置信息个数,计算过程如下: P=maxpΛ 其中,maxp函数表示返回每个卷积核内相似度分数最大的元素的位置信息; S3-4:通过步骤S3-3得到的位置信息集合P生成偏置矩阵M,M定义如下: S3-5:根据步骤S3-1得到的价值集V、步骤S3-2得到的相似度矩阵Λ和步骤S3-4得到的偏置矩阵M计算最终结果,即为输出序列O,计算过程如下: AtentionQ,K,V=softmaxΛ+MV 其中,softmax为指数归一化函数。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人国网浙江省电力有限公司营销服务中心;浙江大学,其通讯地址为:311100 浙江省杭州市余杭区云联路138号5幢;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。