北京航天飞鹰智能机器人技术有限公司吴荣茂获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉北京航天飞鹰智能机器人技术有限公司申请的专利一种基于深度学习的智能机器人语音合成方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119446117B 。
龙图腾网通过国家知识产权局官网在2025-08-22发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411625436.X,技术领域涉及:G10L13/08;该发明授权一种基于深度学习的智能机器人语音合成方法是由吴荣茂;赵卓设计研发完成,并于2024-11-14向国家知识产权局提交的专利申请。
本一种基于深度学习的智能机器人语音合成方法在说明书摘要公布了:本发明涉及智能语音合成技术领域,公开一种基于深度学习的智能机器人语音合成方法,包括:步骤1、文本处理:接收输入文本,且对文本进行分词、词性标注和音素标注,得到文本嵌入序列,用于后续的情感分析步骤;步骤2、情感分析:根据生成的文本嵌入序列,使用基于BERT的情感分类模型对文本进行情感分析,得到文本情感嵌入,用于多模态情感融合;步骤3、接收视觉输入,通过卷积神经网络提取视觉情感嵌入,且将视觉情感嵌入输入到多模态情感融合中。通过深度学习模型能学习语音数据,提取出语音中的自然音素、语调和节奏特征,生成自然流畅的语音合成效果,能在语速、语调和音质上贴近人类语音,而增强用户的听觉体验。
本发明授权一种基于深度学习的智能机器人语音合成方法在权利要求书中公布了:1.一种基于深度学习的智能机器人语音合成方法,其特征在于,包括: 步骤1、文本处理:接收输入文本,且对文本进行分词、词性标注和音素标注,得到文本嵌入序列,用于后续的情感分析步骤; 步骤2、情感分析:根据生成的文本嵌入序列,使用基于BERT的情感分类模型对文本进行情感分析,得到文本情感嵌入,用于多模态情感融合; 步骤3、视觉情感信息提取:接收视觉输入,通过卷积神经网络提取视觉情感嵌入,且将视觉情感嵌入输入到多模态情感融合中; 步骤4、多模态情感融合:基于得到的文本情感嵌入和得到的视觉情感嵌入,采用Transformer模型融合文本情感嵌入和视觉情感嵌入,得到多模态情感嵌入,将多模态情感嵌入作为情感控制的输入; 步骤5、情感控制接口:提供用户接口,允许用户调整多模态情感嵌入中的权重系数,生成最终情感嵌入; 步骤6、语音合成模型生成声谱图:基于得到的文本嵌入序列和最终情感嵌入,将文本嵌入序列和最终情感嵌入输入到VITS变分推断模型中,生成声谱图M; 所述语音合成模型基于变分推断模型VITS,生成包含情感控制的声谱图M,包括: 将文本嵌入H与情感嵌入Efinal融合生成情感语义向量H.; 通过变分推断生成声谱图M,目标函数定义为: logpM|H.≈Eqz|M[logpM|z,H.]-DKLqz|M||pz|H., 其中,z为潜在变量,qz|M表示声谱图M的后验分布,pz|H.表示先验分布,DKL为KL散度,Eqz|M表示关于分布qz|M的期望,logpM|H.表示在给定H.的条件下观察到M的对数概率, logpM|z,H.表示在给定潜在变量z和条件H.时,生成M的对数概率; 在生成过程中加入噪声,且定义正则化项RH′,使得模型输出更加稳定,其中,正则化项RH′表示为: RH′=λ∑i||h′i||2, 其中,λ为正则化系数,h′i为情感语义向量中的各元素; 步骤7、声码器生成音频波形:将生成的声谱图输入到HiFi-生成对抗网声码器中,通过生成对抗网络生成音频波形,得到语音合成的音频输出; 所述声码器基于HiFi-生成对抗网,将生成的声谱图M转化为音频波形,声码器包含: 使用生成对抗网损失控制生成器G和判别器D间的对抗训练,生成对抗网损失定义为: LGAN=EM[logDM]+EGM[log1-DGM], 其中,DM表示判别器对真实声谱图M的判别输出,GM表示生成器生成的声谱图,LGAN为生成对抗网的对抗性损失,EM[logDM]表示真实数据M的期望,EGM[log1-DGM]表示生成数据GM的期望; 通过特征匹配损失LFM进一步提高音频保真度,特征匹配损失定义为: 其中,Dl表示判别器第l层的特征,Nl表示第l层特征的维度,LFM为特征匹配损失,L为判别器中的特征层数,DlM为判别器D对真实数据M在第l层的特征表示,DlGM为判别器D对生成数据GM在第l层的特征表示; 步骤8、数据增强与模型优化:在训练过程中,应用自监督学习和半监督学习进行数据增强和模型优化,包含: 通过对比预测编码提取未标注数据特征; 使用均值教师模型框架进行半监督训练; 通过数据增强方法生成多样化的音频训练数据,优化模型在不同情境下的生成表现; 自监督数据增强采用对比预测编码提取未标注数据特征,通过对比学习增强模型的泛化能力,对比预测编码损失定义为: 其中,LCPC为对比预测编码的损失函数,T为时间步的总数,K表示要预测的未来时间步数,xt+k为时间步t+k的特征向量,xj为负样本的特征向量,为计算时间步t的上下文向量xt与其未来时间步t+k的特征向量xt+k的内积,为归一化项。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京航天飞鹰智能机器人技术有限公司,其通讯地址为:100000 北京市丰台区海鹰路1号院1号楼6层601;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。