平安科技(深圳)有限公司张旭龙获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉平安科技(深圳)有限公司申请的专利基于文本的语音合成方法、装置、设备及存储介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116543742B 。
龙图腾网通过国家知识产权局官网在2026-04-14发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310724801.1,技术领域涉及:G10L13/02;该发明授权基于文本的语音合成方法、装置、设备及存储介质是由张旭龙;王健宗;程宁;夏晶设计研发完成,并于2023-06-16向国家知识产权局提交的专利申请。
本基于文本的语音合成方法、装置、设备及存储介质在说明书摘要公布了:本发明涉及人工智能技术,揭露一种基于文本的语音合成方法、装置、设备以及介质。所述方法包括:任意选取金融训练数据集中的一个训练数据;根据所述训练数据的数据类型将初始语音合成模型中的语音转文本模块及文本转语音模块,分别确定为反馈模块及标记训练模块,并利用所述反馈模块将所述训练数据转换为反馈数据,利用所述标记训练模块将所述反馈数据转换为转换数据,基于所述训练数据及所述转换数据对初始语音合成模型进行参数调整后返回训练数据选取步骤,直至训练完成后,利用模型对目标文本进行语音合成。本发明,可以提高对保险业务办理要求等文本执行语音合成的准确性,可用于金融业务知识转化为语音进行解说普及。
本发明授权基于文本的语音合成方法、装置、设备及存储介质在权利要求书中公布了:1.一种基于文本的语音合成方法,其特征在于,所述方法包括: 获取金融业务知识训练数据集,其中,所述金融业务知识训练数据集中每个训练数据为训练语音或训练文本; 获取初始语音合成模型,其中,所述初始语音合成模型包括:语音转文本模块及文本转语音模块; 任意选取所述金融业务知识训练数据集中的一个训练数据,得到目标训练数据; 根据所述目标训练数据的数据类型将所述语音转文本模块及所述文本转语音模块,分别确定为反馈模块及标记训练模块,并利用所述反馈模块对所述目标训练数据进行数据转换,得到反馈数据,利用所述标记训练模块对所述反馈数据进行数据转换,得到转换数据,其中,所述目标训练数据与所述转换数据的数据类型相同,所述目标训练数据与所述反馈数据的数据类型不同,所述数据类型为文本类型或语音类型; 利用预构建的损失函数计算所述目标训练数据及所述转换数据的差异,得到目标损失值; 当所述目标损失值不小于损失阈值,更新所述初始语音合成模型的模型参数,并返回所述任意选取所述金融业务知识训练数据集中的一个训练数据步骤; 当所述目标损失值小于所述损失阈值,输出此时的初始语音合成模型,得到目标语音合成模型; 当接收到待解说普及的金融业务知识文本时,利用所述目标语音合成模型中的文本转语音模块进行语音合成,得到合成语音; 其中,所述利用预构建的损失函数计算所述目标训练数据及所述转换数据的差异,得到目标损失值,包括:将所述目标训练数据转换为目标训练向量;将所述转换数据转换为转换数据向量;利用所述损失函数计算所述目标训练向量与所述转换数据向量的差异,得到所述目标损失值; 所述将所述目标训练数据转换为目标训练向量,包括:当所述目标训练数据的数据类型为文本类型时, 对所述目标训练数据进行分词,得到一个或多个分词词语;将每个所述分词词语映射为一个数值向量,得到对应分词词语向量;将所有所述分词词语向量进行组合,并将组合后的向量进行维度压缩,得到所述目标训练向量;当所述目标训练数据的数据类型为语音类型时,将所述目标训练数据进行语音分帧,得到多个语音帧;对每个所述语音帧进行离散傅里叶变换,以将每个所述语音帧的时域信号转换为频域信号,得到每个所述语音帧的频域特征信息;基于每个所述语音帧的频域特征信息进行向量特征转换,得到每个所述语音帧的语音帧向量;对所有所述语音帧向量进行特征提取,得到所述目标训练向量。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人平安科技(深圳)有限公司,其通讯地址为:518000 广东省深圳市福田区福田街道福安社区益田路5033号平安金融中心23楼;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励