智明日新(南京)人工智能科技有限公司邵建勇获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉智明日新(南京)人工智能科技有限公司申请的专利一种基于多模态大模型的ASR音频语料的生成方法和装置获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120340506B 。
龙图腾网通过国家知识产权局官网在2025-12-05发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510619927.1,技术领域涉及:G10L19/00;该发明授权一种基于多模态大模型的ASR音频语料的生成方法和装置是由邵建勇;丁一帆;邵凯田;付传奇;岳宝玲;冯山设计研发完成,并于2025-05-14向国家知识产权局提交的专利申请。
本一种基于多模态大模型的ASR音频语料的生成方法和装置在说明书摘要公布了:一种基于多模态大模型的ASR音频语料的生成方法和装置,涉及音频语料领域。在该方法中,将语义向量和条件向量拼接成联合向量,生成第一语音;根据场景标签从预设噪声库中选择目标噪声,将目标噪声叠加到第一语音上生成带噪声语音,注入对抗性噪声生成第二语音;对第二语音进行噪声标注、文本标注、情感标注和说话人标注,进行对齐以生成多模态标注文件;根据多模态标注文件的场景标签、噪声类型及说话人信息,设定词错误率阈值与语义相似度阈值,根据词错误率阈值与语义相似度阈值从多模态标注文件中筛选目标语料。实施本申请提供的技术方案,能够生成高质量、符合特定需求且经过有效筛选的音频语料。
本发明授权一种基于多模态大模型的ASR音频语料的生成方法和装置在权利要求书中公布了:1.一种基于多模态大模型的ASR音频语料的生成方法,其特征在于,应用于语料生成平台,所述方法包括: 使用多模态大模型将目标领域文本编码为语义向量,将语音控制参数和说话人特征编码为条件向量,将所述语义向量和所述条件向量拼接成联合向量,将所述联合向量解码为第一语音; 根据场景标签从预设噪声库中选择目标噪声,将所述目标噪声叠加到所述第一语音上生成带噪声语音,在所述带噪声语音中注入对抗性噪声生成第二语音; 对所述第二语音进行噪声标注、文本标注、情感标注和说话人标注,并将标注数据对齐到同一时间轴以生成多模态标注文件; 根据所述多模态标注文件的场景标签、噪声类型及说话人信息,设定词错误率阈值与语义相似度阈值,根据所述词错误率阈值与所述语义相似度阈值从所述多模态标注文件中筛选目标语料, 所述将语音控制参数和说话人特征编码为条件向量,将所述语义向量和所述条件向量拼接成联合向量,将所述联合向量解码为第一语音包括: 将语速、停顿间隔、语调和情感强度映射到第一向量,将说话人标识、方言、音色和年龄映射到第二向量,将所述第一向量和所述第二向量拼接生成条件向量; 通过注意力机制分配所述语义向量的第一权重与所述条件向量的第二权重,根据所述第一权重和所述第二权重将所述语义向量与所述条件向量按通道维度拼接形成联合向量; 将所述联合向量逐帧解码为梅尔频谱,将所述梅尔频谱逆变换为时域波形,得到第一语音。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人智明日新(南京)人工智能科技有限公司,其通讯地址为:211100 江苏省南京市江宁区秣周东路7号F号楼五层(未来科技城);或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励