普强时代(珠海横琴)信息技术有限公司司玉景获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉普强时代(珠海横琴)信息技术有限公司申请的专利基于说话人分类的性别、年龄、口音联合检测方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN118522291B 。
龙图腾网通过国家知识产权局官网在2025-06-06发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202410591017.2,技术领域涉及:G10L17/14;该发明授权基于说话人分类的性别、年龄、口音联合检测方法及系统是由司玉景;李全忠;何国涛;蒲瑶设计研发完成,并于2024-05-13向国家知识产权局提交的专利申请。
本基于说话人分类的性别、年龄、口音联合检测方法及系统在说明书摘要公布了:本发明提供基于说话人分类的性别、年龄、口音联合检测方法及系统,方法包括:构建说话人数据库;构建基于该说话人数据库的深度神经网络说话人分类模型,采用附加角裕度损失函数对训练深度神经网络说话人分类模型;对输入的语音数据进行前向神经网络计算,得到说话人标签的后验概率;根据后验概率得到输入语音对应的说话人标签,输出该说话人标签对应的性别、年龄、口音信息。本发明通过构建说话人数据库,降低了数据收集的成本,使用一个模型同时预测年龄、性别、口音,应用时只部署一个模型,节省了计算资源;能够基于语音数据同时预测出对应的性别、年龄、口音等信息,实现了年龄、性别、口音联合优化,相互促进,有效提高了模型分类的准确率。
本发明授权基于说话人分类的性别、年龄、口音联合检测方法及系统在权利要求书中公布了:1.基于说话人分类的性别、年龄、口音联合检测方法,其特征在于,包括以下步骤:S1、收集设定数量的说话人的语音数据,并记录说话人的性别、年龄、口音相关信息,构建说话人数据库,所述说话人数据库包括:说话人的语音数据以及对应的说话人标签信息;所述说话人标签信息包括:说话人的性别、年龄、口音信息;S2、利用收集到的语音数据和对应的说话人标签信息,构建基于该说话人数据库的深度神经网络说话人分类模型,采用附加角裕度损失函数AAM对所述深度神经网络说话人分类模型进行训练;所述附加角裕度损失函数的表达式为: (1)式(1)中,是模型输出的嵌入向量与真实说话人类别对应的嵌入向量之间的余弦相似度角,是角裕度参数,y是真实说话人类别的索引,是模型输出与每个类别嵌入向量的余弦相似度角;S3、根据训练好的深度神经网络说话人分类模型,对输入的语音数据进行前向神经网络计算,得到说话人标签的后验概率;S4、根据所述后验概率得到输入语音对应的说话人标签,输出该说话人标签对应的性别、年龄、口音信息;所述S3步骤包括以下步骤:S31、将语音数据输入到训练好的深度神经网络说话人分类模型中;S32、由深度神经网络说话人分类模型通过前向传播算法处理输入的语音数据,利用模型在训练阶段学习到的参数提取特征并进行分类;S33、在深度神经网络说话人分类模型的输出层,使用softmax激活函数,将原始输出logits转换成概率分布;所述softmax激活函数的表达式为:(2)式(2)中,是给定输入x,说话人标签为类别k的后验概率;是模型对于样本x在类别k上的原始预测值,也就是logits;分母是所有类别的指数值之和,保证所有类别的概率之和为1;S34、通过步骤S31-S33,由深度神经网络说话人分类模型为每个输入样本生成一个概率分布,该概率分布覆盖所有可能的说话人标签;S35、根据所述概率分布,选择概率最高的标签作为模型预测的说话人标签;S36、由深度神经网络说话人分类模型输出每个输入的语音数据对应的说话人标签及其后验概率;所述S4步骤的输出该说话人标签对应的性别、年龄、口音信息的方法包括:基于在模型训练和数据库构建阶段建立的标签与特征之间的映射关系,将所述说话人标签转换为具体的性别、年龄、口音信息,并输出这些性别、年龄、口音信息;所述S4步骤之后还包括:将训练好的深度神经网络说话人分类模型部署到实际的应用环境中,以便对新的语音数据进行说话人分类,基于所述说话人分类预测对应的性别、年龄、口音信息;所述S2步骤中使用的深度神经网络说话人分类模型包括:ECAPA-TDNN模型、UIS-RNN模型中的任一种;UIS-RNN模型为每个说话人建立一个循环神经网络RNN,通过监督学习进行训练,能够持续更新并适应新的说话人。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人普强时代(珠海横琴)信息技术有限公司,其通讯地址为:519000 广东省珠海市横琴新区环岛东路1889号20栋110-116室;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励