华南理工大学贺前华获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉华南理工大学申请的专利基于注意力机制声学词嵌入特征的语音样例检测方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116597860B 。
龙图腾网通过国家知识产权局官网在2026-03-20发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310344405.6,技术领域涉及:G10L25/30;该发明授权基于注意力机制声学词嵌入特征的语音样例检测方法及系统是由贺前华;徐剑斌;郑若伟;李学高设计研发完成,并于2023-04-03向国家知识产权局提交的专利申请。
本基于注意力机制声学词嵌入特征的语音样例检测方法及系统在说明书摘要公布了:本发明公开了一种基于注意力机制声学词嵌入特征的语音样例检测方法及系统,该方法包括下述步骤:将语音数据集通过标注信息所提供的词级别时间戳集切分为具有不同词语信息的语音片段,对切分后的语音片段进行零值填充和上下文填充,得到固定时长的语音片段;构建基于注意力机制的声学词嵌入特征神经网络,将语音片段构造成三元损失函数所需的三元组形式,对三元组提取对数梅尔谱特征,以三元损失函数为目标训练声学词嵌入特征神经网络;将训练后的声学词嵌入特征神经网络作为声学词嵌入特征提取器,使用声学词嵌入特征进行语音样例检测,得到语音样例检测结果。本发明提高了声学词嵌入特征的区分性,提高了声学词嵌入特征在语音样例检测中的效果。
本发明授权基于注意力机制声学词嵌入特征的语音样例检测方法及系统在权利要求书中公布了:1.一种基于注意力机制声学词嵌入特征的语音样例检测方法,其特征在于,包括下述步骤: 将语音数据集通过标注信息所提供的词级别时间戳集切分为具有不同词语信息的语音片段,对切分后的语音片段进行零值填充和上下文填充,得到固定时长的语音片段; 构建基于注意力机制的声学词嵌入特征神经网络,包括:查询网络、比对网络和输出网络,所述查询网络和比对网络均设有位置编码模块、自注意力机制模块,所述输出网络设有跨注意力机制模块和输出模块; 所述位置编码模块通过正弦函数和余弦函数构造一个与输入特征向量维度相同且包含输入特征相对时间位置信息的特征向量,将所述与输入特征向量维度相同且包含输入特征相对时间位置信息的特征向量与输入特征向量进行相加,从而实现位置编码; 所述位置编码模块通过正弦函数和余弦函数构造一个与输入特征向量维度相同且包含输入特征相对时间位置信息的特征向量,具体包括: 给定一个长度为n的输入特征,t表示在输入特征中的位置,表示t位置对应的输入特征向量,表示t位置对应的位置向量,d是向量的维度,是生成位置向量的函数,定义如下: ; 其中,i表示相应的维度,频率定义如下: ; 位置向量是一个包含各个频率的正弦和余弦对,表示为: ; 得到位置向量后,通过正弦和余弦函数,位置向量包含输入特征向量的相对时间位置信息,对输入特征向量进行位置编码,具体操作为: ; 其中,为位置编码后的输入特征向量; 所述自注意力机制模块用于构建输入特征的上下文表示,得到输入每一帧与全局的注意力权重矩阵,通过注意力权重矩阵计算每一帧输入与全局的加权和,最终得到自注意力机制模块的输出; 所述跨注意力机制模块用于根据查询网络的信息从比对网络提取所需内容信息; 所述输出模块将跨注意力机制模块的输出进行拼接,并最终转化为固定维度的特征向量,最终以此特征向量作为声学词嵌入特征; 将语音片段构造成三元损失函数所需的三元组形式,三元组包括锚点样例、正样例和负样例,对三元组提取对数梅尔谱特征,将锚点特征固定输入到查询网络,将锚点特征、正样例特征和负样例特征依次输入到比对网络,在声学词嵌入特征神经网络的输出模块得到三个声学词嵌入特征,以三元损失函数为目标训练声学词嵌入特征神经网络; 将锚点特征固定输入到查询网络,将锚点特征、正样例特征和负样例特征依次输入到比对网络,具体包括: 对锚点特征进行零值填充,将零值填充的锚点特征固定输入到查询网络; 将正样例特征、负样例特征进行上下文填充,将零值填充的锚点特征、上下文填充的正样例特征和上下文填充的负样例特征依次输入到比对网络; 将训练后的声学词嵌入特征神经网络作为声学词嵌入特征提取器,使用声学词嵌入特征进行语音样例检测,得到语音样例检测结果,具体包括: 对查询样例进行零值填充,将填充后的查询样例提取对数梅尔谱特征; 将查询样例的对数梅尔谱特征分别输入到声学词嵌入神经网络的查询网络和比对网络,得到查询样例的声学词嵌入特征; 将查询样例的对数梅尔谱特征固定输入到声学词嵌入神经网络的查询网络,对待检测语音进行滑窗处理,将每个窗口提取的对数梅尔谱特征输入到声学词嵌入神经网络的比对网络,得到待检测语音的声学词嵌入特征; 将查询样例的声学词嵌入特征与每一个待检测语音的声学词嵌入特征计算余弦距离,通过余弦距离判断待检测语音是否存在查询样例。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人华南理工大学,其通讯地址为:510640 广东省广州市天河区五山路381号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励