昆明理工大学余正涛获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉昆明理工大学申请的专利一种基于音素段级表征离散化的无监督语音识别建模方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119446136B 。
龙图腾网通过国家知识产权局官网在2025-12-19发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411302583.3,技术领域涉及:G10L15/22;该发明授权一种基于音素段级表征离散化的无监督语音识别建模方法是由余正涛;蒋三龙;董凌;高盛祥设计研发完成,并于2024-09-18向国家知识产权局提交的专利申请。
本一种基于音素段级表征离散化的无监督语音识别建模方法在说明书摘要公布了:本发明涉及基于音素段级表征离散化的无监督语音识别建模方法,属语音识别领域。本发明通过语音特征离散化模块使用了IFMF模型对原始音频提取音素特征,然后训练一个K‑Means聚类算法来聚类音频表征,并获取聚类索引作为离散标记;通过对抗学习模块训练一个生成器网络和一个鉴别器;通过语音离散表征解码器模块使用语言模型对无监督训练得到的基于音素离散化的模型输出进行解码。本发明融合多种语音特征,采用音素段级表征离散化的方式,既考虑到了声调信息对老挝语的影响,又尽可能降低细粒度特征造成的信息冗余对跨模态建模的影响。本发明的方法与传统语音识别方法相比取得具有竞争力的结果。
本发明授权一种基于音素段级表征离散化的无监督语音识别建模方法在权利要求书中公布了:1.一种基于音素段级表征离散化的无监督语音识别建模方法,其特征在于:包括: 步骤1:通过语音特征离散化模块使用IFMF模型对原始音频提取音素特征,然后训练一个K-Means聚类算法来聚类音频表征,并获取聚类索引作为离散标记; 步骤2、通过对抗学习模块训练一个生成器网络G和一个鉴别器网络C,其中生成器网络生成样本,然后由鉴别器网络进行判断,鉴别器网络被训练来区分样本是来自生成器网络还是来自真实的数据分布,生成器网络的目标是产生鉴别器网络无法区分的样本; 步骤3、通过语音离散表征解码器模块使用语言模型对无监督训练得到的基于音素离散化的模型输出进行解码; 所述步骤2包括: 将一系列T段表示作为输入,然后将其映射到一系列M个音素序列;生成器网络为每个片段预测音素集O上的分布,并输出概率最高的音素;如果连续段的argmax预测结果是相同的音素,那么将对这些段中的一个进行采样,; 音素集O包含一个静音标签SIL,以便将语音音频中的静音部分标记为静音;在反向传播过程中,通过生成器网络输出的采样点进行反向传播,在无监督训练期间,不修改段表示S,生成器网络被参数化为一个单层卷积神经网络; 鉴别器网络的输入是从真实数据分布中获取的表示音素化文本的one-hot向量序列,或者是生成器GS的输出分布序列;每个输入向量具有个维度,表示每个音素段的分布;鉴别器网络是一个CNN,输出一个概率,表示样本来自数据分布的可能性; 实验中,使用带有梯度惩罚的原始GAN目标,一个段平滑惩罚和一个音素多样性惩罚; 梯度惩罚:实验对鉴别器中输入的梯度范数进行惩罚;该惩罚是针对随意样本计算的,这些样本是真实样本和假样本对激活值的线性组合; 音素多样性损失:最大化生成器在音素词汇中的平均softmax分布的熵,这个分布是在一批次B的发音上计算的; 实验目标是构建无需任何监督的语音识别模型,为此,采用了不需要标记数据的交叉验证指标,使用该指标进行早期停止、随机种子选择和超参数选择;在这个指标中,考虑了两个数量:LM负对数似然和词汇使用量。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人昆明理工大学,其通讯地址为:650500 云南省昆明市呈贡区景明南路727号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励