上海岩芯数智人工智能科技有限公司岳丹阳获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉上海岩芯数智人工智能科技有限公司申请的专利一种实时流式语音智能问答服务系统的构建方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119719438B 。
龙图腾网通过国家知识产权局官网在2025-06-10发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510220327.8,技术领域涉及:G06F16/9032;该发明授权一种实时流式语音智能问答服务系统的构建方法是由岳丹阳设计研发完成,并于2025-02-27向国家知识产权局提交的专利申请。
本一种实时流式语音智能问答服务系统的构建方法在说明书摘要公布了:本申请公开了一种实时流式语音智能问答服务系统的构建方法,包括:接收输入的语音数据;调用独立的语音识别服务将语音数据转换为输入文本;基于输入文本构建大语言模型的提示语,向独立的大语言模型服务发起LLM流式请求,实时获取LLM生成的流式文本回答;通过动态句子切分器对流式文本回答进行实时切分,生成多个子句;对每个子句并行调用独立的语音合成服务,将文本转换为音频数据块;将所述音频数据块按生成顺序组合为流式音频数据,实时返回至客户端播放。本发明通过解耦ASR、LLM与TTS服务,结合异步流式框架与“边想边说”策略,显著提升了语音问答系统的实时性与灵活性。
本发明授权一种实时流式语音智能问答服务系统的构建方法在权利要求书中公布了:1.一种实时流式语音智能问答服务系统的构建方法,其特征在于,包括如下步骤:步骤S1:接收用户输入的语音数据;步骤S2:调用独立的语音识别服务ASRServer,将所述语音数据转换为输入文本;步骤S3:基于输入文本构建大语言模型LLM的提示语prompt,向独立的大语言模型服务LLMServer发起LLM流式请求,并实时获取LLM生成的流式文本回答;步骤S4:通过动态句子切分器对所述流式文本回答进行实时切分,生成多个子句;步骤S5:对每个子句并行调用独立的语音合成服务TTSServer,将文本转换为音频数据块;步骤S6:将所述音频数据块按生成顺序组合为流式音频数据,并实时返回至客户端播放;其中,所述ASRServer、LLMServer与TTSServer为互相解耦的独立服务,且LLMServer和TTSServer支持流式输出;所述步骤S5包括:为每个子句创建独立的TTS请求线程,通过线程池控制并发数量;每个TTS请求线程将生成的音频数据块按顺序存入异步音频队列;实时检测所述异步音频队列,按入队顺序提取音频数据块并返回至客户端;所述步骤S6中,流式音频数据返回的实现方式包括:(a)在LLM生成文本过程中,实时检测异步音频队列中是否存在音频数据块,若存在则按入队顺序返回;(b)在LLM生成结束后,向异步音频队列插入任务结束标识符end,并继续处理异步音频队列中剩余的音频数据块按入队顺序返回,直至检测到任务结束标识符end或异步音频队列清空;其中,所述步骤(a)具体包括如下步骤:步骤a.1:在LLM流式生成文本的每次迭代前,创建一个空的临时存储变量audio_chunks,用于缓存当前处理的子队列音频数据;步骤a.2:每次迭代LLM生成文本后,检测异步音频队列是否非空:若异步音频队列非空且audio_chunks为空,则从异步音频队列中出队首个子队列audio-chunk-j,并赋值给audio_chunks;步骤a.3:判断audio_chunks是否非空且包含未返回的音频数据块:若满足条件,按顺序提取audio_chunks中的所有音频数据块并实时返回客户端;若提取到音频数据块为空,将audio_chunks重置为空,并重新从异步音频队列中获取下一个子队列;若audio_chunks为空或无可提取数据,则继续下一次LLM迭代。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人上海岩芯数智人工智能科技有限公司,其通讯地址为:201203 上海市浦东新区博霞路11号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。