Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 南京感动科技有限公司朱键获国家专利权

南京感动科技有限公司朱键获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉南京感动科技有限公司申请的专利一种基于思维链微调大模型的交通域服务语音自适应生成方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120126484B

龙图腾网通过国家知识产权局官网在2025-07-22发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510604879.9,技术领域涉及:G10L15/26;该发明授权一种基于思维链微调大模型的交通域服务语音自适应生成方法及系统是由朱键;钱旻;宋琳;袁倩;张炜;朱京淮;刘晓帆;孟曦;卞加佳;吴烨南设计研发完成,并于2025-05-12向国家知识产权局提交的专利申请。

一种基于思维链微调大模型的交通域服务语音自适应生成方法及系统在说明书摘要公布了:本发明公开了一种基于思维链微调大模型的交通域服务语音自适应生成方法及系统,首先利用语音编码器将输入语音信号转化为高维语音特征信号,再通过文字解码器和拼音解码器根据高维语音特征信号生成文本输出信号;本发明实现了具有采用变分去量化联合数据增强机制、双通道多模态判别器架构及分层复合损失函数进行高保真情感语音生成与复杂噪声环境下的鲁棒性合成并同步支持语义驱动的动态韵律优化与专业术语精准发音的功能,且在交通领域应用场景中能采用多任务语音识别法实现字符级识别、音频转拼音及句子级口音分类模块的高效联动从而有效应对口音复杂和杂音多及交通术语多音字挑战,适合被广泛推个和使用。

本发明授权一种基于思维链微调大模型的交通域服务语音自适应生成方法及系统在权利要求书中公布了:1.一种基于思维链微调大模型的交通域服务语音自适应生成方法,其特征在于:包括以下步骤, 步骤A,利用语音编码器将输入语音信号转化为高维语音特征信号,再通过文字解码器和拼音解码器根据高维语音特征信号生成文本输出信号; 步骤B,采用口音类型识别解码器对输入语音信号进行识别并输出音频口音类型概率; 步骤C,基于语音编码器、文字解码器、拼音解码器和口音类型识别解码器构建多任务语音识别模型,再利用多任务语音识别模型对文本输出信号和音频口音类型概率进行进一步处理并获得文本表征、拼音序列和音频口音类型; 步骤D,制定大模型标注规范,再构建大模型数据集并依据标注规范对大模型数据集进行标注,获得标注后大模型数据集; 步骤E,利用LoRA低秩微调法与混合精度量化法对标注后大模型数据集进行轻量化训练并获得思维链微调大模型,具体步骤如下, 步骤E1,引入LoRA低秩微调法对标注后大模型数据集的全连接层进行适配,其中LoRA低秩微调法具体是在大模型数据集中增加旁支网络并利用两个秩分解矩阵的乘积更新全连接层的权重,再更新旁支网络中的参数; 步骤E2,利用混合精度量化法对标注后大模型数据集进行轻量化训练并获得思维链微调大模型,其中混合精度量化法具体是利用低精度存储数据类型并在计算过程中进行去量化处理,再结合BFloat16进行高精度计算并实现标注后大模型数据集的微调从而获得思维链微调大模型,所述混合精度量化法具体包含4-bitNormalFloat量化法和双重量化法,具体步骤如下, 步骤E21,模型权重量化与归一化处理,具体是采用权重服从零中心正态分布的特性计算分位数区间并确定量化映射表,其中计算分位数区间具体是将权重张量归一化至[-1,1]范围,再通过分位数量化公式确定离散值如公式1所示, 其中,qi为离散值,wi为原始权重的第i个元素值,μ和σ分别为权重均值与权重标准差,k为量化位数; 步骤E22,双重量化与参数压缩,具体是对量化后的权重矩阵引入两级量化机制,其中第一级对原始权重进行4-bitNormalFloat量化,第二级对量化常数采用8位浮点再量化并实现量化参数的二次压缩,如公式2所示, Q1w=Quantw,NF4,Q2s=Quants,FP82 其中,Q1w为对权重w进行4-bitNormalFloat量化后结果,NF4为4-bitNormalFloat量化,Quant为量化函数,Q2s为根据中间计算结果s进行8位浮点量化后结果,FP8为8位浮点量化; 步骤E23,分页优化与显存管理,具体是构建基于NVIDIA统一内存的分页优化器动态管理GPU-CPU内存交换,若计算过程中显存占用超过阈值T时,则自动将梯度检查点数据分页转存至CPU内存,如公式3所示, 其中,Mused为显存,PageOut为将内存中的页面换出到磁盘并释放内存资源的函数,Dgradient为数据梯度; 步骤E24,低秩适配与参数融合,具体是量化后的基座模型上插入可训练的低秩适配器对原始量化权重进行冻结,所述低秩适配器由分解矩阵A和分解矩阵B构成,而参数融合公式如公式4所示, hout=Wquant·x+α·B·A·x4 其中,hout为参数融合结果,Wquant量化后的权重矩阵,x为输入向量,α为缩放系数,A和B均为附加权重矩阵; 步骤F,采用思维链微调大模型根据文本表征、拼音序列和音频口音类型自适应生成并输出感情化交通域服务语音,其中自适应生成具体采用声学生成模型-韵律预测器-神经声码器三级架构并集成多音字消歧模型与上下文感知动态调整机制在保障专业术语精准发音的同时实现语义驱动的韵律自适应生成,从而满足实时交互与复杂噪声环境下的高质量语音合成需求,具体步骤如下, 步骤F1,构建韵律预测器,所述韵律预测器具体采用变分去量化与数据增强联合机制构建连续化音素时长预测模型,再利用连续化音素时长预测模型结合可逆流生成法和动态对齐法对韵律与情感进行深度协同优化; 步骤F2,构建声学生成模型,所述声学生成模型具体采用双通道多模态判别器的特征强化层提取情感声学特征矩阵,再根据情感声学特征矩阵建立频谱结构与语义情感的双重监督机制对情感表达一致性进行提升; 步骤F3,构建神经声码器,所述神经声码器具体采用分层复合损失函数体系融合频谱重构、特征空间约束及情感双重监督并结合环境噪声抑制法增强声码器的鲁棒性。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人南京感动科技有限公司,其通讯地址为:210000 江苏省南京市秦淮区菱角市66号39栋102室;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。