东南大学袁奡获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉东南大学申请的专利一种基于混合特征的音频预警精准辨识方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116343763B 。
龙图腾网通过国家知识产权局官网在2025-11-11发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310257571.2,技术领域涉及:G10L15/04;该发明授权一种基于混合特征的音频预警精准辨识方法是由袁奡;葛迅;陈泽华;骆威宇;徐启敏设计研发完成,并于2023-03-14向国家知识产权局提交的专利申请。
本一种基于混合特征的音频预警精准辨识方法在说明书摘要公布了:本发明公开了一种基于混合特征的音频预警精准辨识方法,该方法对收集到的音频语音进行分析,确定预警信号的发出时间,从而对音频预警的及时性进行准确评测。首先,采用logmmse‑谱减法进行双重降噪,将录制的语音中的噪声信息滤除;接着,使用基于短时能量的端点检测,标注出待测语音中的有效语音段;然后,对有效语音段的每帧语音提取MFCC特征和波形多项式特征;继而,分别将两种特征作为卷积神经网络两个通道的输入,将两个通道的输出相加后得到混合特征;最后,将混合特征作为softmax函数的输入,通过最大概率值确定目标语音音频预警信号所在的语音段,该语音段的起始位置就是预警信号的发出时间。
本发明授权一种基于混合特征的音频预警精准辨识方法在权利要求书中公布了:1.一种基于混合特征的音频预警精准辨识方法,其特征在于,包括以下步骤: 步骤1:采用logmmse-谱减法进行双重降噪 采用logmmse与谱减法相结合的方法,对短时不稳定噪声和较为规则的稳定噪声都进行降噪处理; logmmse是一种基于统计的语音增强算法,对音频进行分帧、加窗后,首先估计噪声参数,根据采集音频的特点,认为前nnoise帧为噪声信号,将前nnoise帧信号经过傅里叶变换后取其实数部分得到每一帧信号的幅度谱s,计算噪声幅度谱的能量,如式1所示: 接着对每一帧语音xk进行增强,对每一帧语音取其傅里叶变换后的实数部分得到每一帧信号的幅度谱sk,计算该帧语音的幅度谱能量、先验信噪比和后验信噪比,分别如式2,3,4所示: pki=[ski]22 根据上述三个参数,计算判决引导法的参数为: ξki=aγprei+1-amaxγki,05 ξki=maxξki,ξmin6 由此计算该帧语音的增强系数: 将原语音的幅度谱的每个采样点ski乘上对应的增强系数enhi,再经过逆傅里叶变换就得到了该帧语音的增强结果,除此之外,在每一帧语音计算过后还需要对噪声能量进行更新: σki=vki-lnξki9 若参数d小于设定的阈值,则对噪声能量进行更新: pnoisei=μpnoisei+1-μpki11 logmmse降噪后,对音频采用谱减法进一步降噪,谱减法能有效去除较平稳的噪声,同样对语音分帧、加窗后,进行噪声参数的估计,将前nnoise帧信号经过傅里叶变换后取模,计算噪声幅度谱的能量为: 对谱减后的语音进行逆傅里叶变换就得到了去噪后的语音,至此logmmse-谱减法双重降噪完成; 步骤2:基于短时能量的语音起始端点检测 采用时域上基于短时能量的端点检测方法,并且为了使语音起始时刻的结果更加准确,舍弃通常与短时能量共同作用的过零率属性,短时能量定义为: 式中N代表帧数,m代表每一帧的样本数量; 用每一帧语音的短时能量设定阈值,采用的阈值设定方法为: 根据设定的阈值遍历每一帧音频的短时能量进行语音端点检测;具体的,遍历短时能量,将能量大于阈值h的点作为语音的起点加入候选语音,从该点开始往后到小于阈值h的点作为该段语音的终点;对于新加入的候选起点,比较其与前一个终点的距离,若两者相距小于x帧则不将该点作为新语音段的起点,选择与前一段语音合并继续往后寻找终点;检测完成后,利用阈值l对第一次端点检测的结果进行拓展:对于每一段检测结果,从左右端点向两边拓展,遇到能量小于阈值l时停止;得到语音端点检测的最终结果; 步骤3:提取MFCC-多项式混合特征 MFCC的计算步骤如下: 1对声音信号进行预加重,公式为: x'n=xn-μ·xn-119 2选择合适的帧大小和帧移对语音信号分帧,假设分帧后每一帧语音表示为xk; 3分帧后,对每一帧信号加窗,采用汉明窗: xkn=xkn×Wn20 0≤n≤N-1,a取0.4621 4对每一帧语音做离散傅里叶变换: 5定义一个有M个滤波器的滤波器组,采用的滤波器为三角滤波器;滤波器的定义如下: fm定义为: Fmelf=1125ln1+f700 式中fl为滤波器定义的最低频率,fh为滤波器定义的最高频率,fs为采样频率; 将能量谱通过上述三角滤波器组,并计算每个滤波器组输出的对数能量: 6将上述的对数能量带入离散余弦变换,求出L阶的梅尔倒谱参数,L指MFCC系数阶数: 7根据需要计算动态差分参数,公式为: 求出一阶差分参数后,将一阶差分参数再带入能求得二阶差分参数,Θ取1或2; 取梅尔倒谱参数、一阶差分参数的前13个系数,得到该帧语音的MFCC特征向量; 多项式特征是对每一帧语音经过傅里叶变换后得到的能量谱进行n阶多项式拟合求得的系数,假设有n阶多项式: pn=anxn+an-1xn-1+...+a1x+a028 对每一帧语音经过傅里叶变换后计算其模的二次方得到能量谱,以能量作为函数值,对应频率作为自变量对pn进行拟合,得到系数an,an-1,...,a1,a0即为该帧语音的多项式特征; 步骤4:基于双通道CNN得到融合特征 对步骤3得到的MFCC特征和多项式特征分别作为CNN两个通道的输入,与通道的卷积核进行互相关运算,将两个通道的输出相加得到融合特征; 输入层尺寸设为224,卷积层选用3×3的小尺寸滤波器,步长为1,同时对输入数据进行零填充,这样卷积层不会改变输入数据在空间维度上的尺寸;在汇聚层选用2×2的感受野,步长为2;因为卷积核的大小定义了卷积核的感受野,感受野越大,使用的像素点邻域越大,能提取到的信息越多,提取到的特征就越优秀;但是感受野增大也代表着计算量的增大,在深度网络训练时会导致训练时间过长; 步骤5:用softmax函数进行语音预警信号识别 将步骤4得到的混合特征向量作为softmax函数的输入,设混合特征为a,输出个数为C,即输入为a1,a2,a3...,aC;对于每帧语音,它属于类别i的概率为: softmax函数会对输入的混合特征向量进行归一化,凸显其中概率最大的值并抑制远低于最大值的其他分量,进而得到每帧语音的概率分布;概率值最大的即为目标语音段,该语音分段的起始位置就是音频预警的发出时间。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人东南大学,其通讯地址为:210096 江苏省南京市玄武区四牌楼2号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励