Document
拖动滑块完成拼图
专利交易 商标交易 积分商城 国际服务 IP管家助手 科技果 科技人才 会员权益 需求市场 关于龙图腾 更多
 /  免费注册
到顶部 到底部
清空 搜索
最新专利技术
  • 本申请实施例提供了一种基于人工智能的语音生成方法和装置、设备、存储介质,属于人工智能技术领域。该方法包括:获取原始音视频数据,并从原始音视频数据提取原始视频帧和音频信号,其中,音频信号包括带噪音频;对所述原始视频帧进行特征提取,得到面部特征...
  • 本发明提供一种多语种自动语音识别方法、系统、存储介质及电子设备,包括获取多个语种的字表的字表特征向量;获取语种标识符特征和识别标识符特征;获取待识别语音的声学特征矩阵;基于语种标识符特征、声学特征矩阵和识别标识符特征获取输出特征矩阵;基于所...
  • 公开了一种语音交互方法、语音识别模型的训练方法及电子设备。所述语音交互方法包括:获取源语言对应的语音数据;基于预先训练的语音识别模型,对所述语音数据进行语音处理,获得所述源语言对应的语音识别数据和目标语言对应的语音翻译数据;显示所述语音识别...
  • 本申请涉及语音合成技术领域,具体公开了一种基于副语言的语音合成方法、装置、计算机设备及介质。本申请通过韵律预测获得韵律特征,有效融合文本与参考声学信息,根据副语言标签序列获得副语言特征,进而协同利用文本特征、预测韵律特征与副语言特征合成目标...
  • 本发明涉及人工智能技术领域,公开了一种粤剧语音智能克隆及推荐方法,该方法包括:首先获取语音合成文本、用户与大语言模型的交互内容及用户上传语音;将语音合成文本输入预先训练的模型生成具有粤剧特色的语音;基于用户交互内容通过角色匹配确定系统提示词...
  • 提供用于具有语音克隆和虚拟形象的剪辑生成系统和方法。一种方法包括访问模板视频和接收输入文本,以及基于模板音频数据和输入文本生成克隆音频数据。该方法还包括从模板视频的连续视频帧中提取参考图像,并将克隆音频数据、参考图像和连续帧提供给视频生成模...
  • 本发明公开了一种基于长文本建模的个性化语音生成方法,属于语音合成技术领域。该方法先获取原始训练文本和音频形成原始数据集,进行预处理后得到标准化拼音序列;然后对改进注意力机制的TacotronV2模型进行批量训练,得到预训练模型Checkpo...
  • 本申请公开了一种音频处理方法、装置及系统,所述方法包括:基于训练音频数据,训练解码器学习至少一个目标音色;提取待转换音频的第一声学特征,结合第一目标音色标签,将所述第一声学特征转化为带有第一目标音色的目标音频;输出所述目标音频。
  • 本发明涉及语音提醒技术领域,具体为一种AI语音医嘱穿戴设备的提醒方法及系统,包括以下步骤,基于身份字段提取医嘱文本,分析行为关键词组合,生成执行特征集合,判断执行频率和注意事项字段提取等级参数,生成响应等级区间,匹配语音身份模型筛选播报特征...
  • 本发明提供一种语音合成方法、装置、电子设备及存储介质,该方法包括:将目标输入信息输入至语音合成模型的分布预测模型,得到目标声学特征对应的预测分布参数;所述目标输入信息包括待合成的语音属性信息和待合成的语音内容信息;根据所述预测分布参数,获取...
  • 本发明涉及人工智能技术领域,应用于智慧医疗和金融领域,公开一种语音合成模型训练方法、装置、设备及介质,方法包括:获取包括目标文本序列、与目标文本序列对应的目标干净语音和带噪提示音频的训练样本;根据带噪提示音频,通过预训练的语音模型提取声学先...
  • 本发明公开了一种提升大模型语音合成多样性的提示词自动匹配方法及系统,属于人工智能领域。方法包括将原始长文本划分为多个文本块;通过最小编辑距离和语义相似度计算得到文本块与每个候选提示词的综合相似度得分后,引入情感平滑机制计算得到文本块与每个候...
  • 本申请涉及语音合成技术领域,具体公开了一种基于语义对齐变分自编码器的语音合成方法及装置。本申请通过预先训练的语义对齐变分自编码器进行潜在特征提取,能够获得语义对齐的音频特征,不仅包含了说话人参考音频中的声学信息,还保留了说话人参考音频中的语...
  • 本申请实施例提供了一种语音合成方法和装置、电子设备及存储介质,属于人工智能技术领域,适用于金融科技领域和医疗科技领域。该方法包括:获取语音合成文本和合成情感提示;其中,合成情感提示具有目标提示情感类别;对语音合成文本与合成情感提示的目标提示...
  • 本申请提出的语音合成方法和装置、电子设备、存储介质,涉及人工智能技术领域,适用于金融领域及医疗领域。该方法包括:获取目标情感文本,对目标情感文本进行文本编码,得到目标情感向量;获取说话人语音,对说话人语音进行说话人编码,得到目标说话人属性向...
  • 本申请实施例提供了一种多语言语音合成方法和装置、电子设备及存储介质,属于人工智能技术领域,应用于金融场景和医疗场景。该方法包括:通过原始语音合成模型对训练原始人声信息进行音色偏移处理,根据训练文本语言和融合音色偏移特征和目标人声特征所得的训...
  • 本申请实施例提供了一种语音合成方法和装置、电子设备及存储介质,属于人工智能技术领域,适用于金融科技领域和医疗科技领域。该方法包括:获取语音合成数据集;其中,语音合成数据集包括语音合成样本和情感指示标签;对情感指示标签进行令牌转换,得到情感标...
  • 本发明涉及自动化设备语音提示技术领域,具体提供一种自动化设备的语音提示控制方法及自动化设备,旨在解决现有自动化设备的语音提示内容固定不变,无法根据实际运行状态针对地进行提示的问题。为此目的,本发明的控制方法包括:S1,获取自动化设备的实际运...
  • 本发明涉及语音语义技术领域,可应用于金融科技及医疗健康等业务场景中,公开了一种基于伪自回归建模的语音生成方法、装置、设备及介质,包括:获取包含文本序列、提示语音片段和目标语义令牌序列的训练样本;对文本到语义模型执行连续片段掩码训练以获得经伪...
  • 本申请实施例提供了一种语音情感识别方法和装置、电子设备及存储介质,属于人工智能技术领域,适用于金融科技领域和医疗科技领域。该方法包括:获取样本音频数据;对样本音频数据进行特征提取,得到样本情感特征;基于样本情感特征生成样本合成文本;样本合成...
技术分类