Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院);中国科学院计算技术研究所陈科海获国家专利权

哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院);中国科学院计算技术研究所陈科海获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院);中国科学院计算技术研究所申请的专利基于两阶段解耦方式的语音大模型模态对齐方法及装置获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119670718B

龙图腾网通过国家知识产权局官网在2025-06-10发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510185747.7,技术领域涉及:G06F40/189;该发明授权基于两阶段解耦方式的语音大模型模态对齐方法及装置是由陈科海;郑祥庆;白雪峰;冯洋;张民设计研发完成,并于2025-02-20向国家知识产权局提交的专利申请。

基于两阶段解耦方式的语音大模型模态对齐方法及装置在说明书摘要公布了:本发明提供一种基于两阶段解耦方式的语音大模型模态对齐方法及装置,涉及自然语言处理技术领域。该方法包括:获取预训练的语音数据集以及预训练的任务指令文本;构建初始的语音大模型,根据预训练的语音数据集以及预训练的任务指令文本,采用两阶段解耦方式处对初始的语音大模型进行预训练,获得预训练好的语音大模型;采用LoRA微调技术对预训练好的语音大模型进行指令微调,获得训练好的语音大模型;将待处理的语音数据和语音数据对应的指令,输入训练好的语音大模型中进行处理,输出与语音数据对应的指令需求相匹配的文本。采用本发明可解决在特征解耦导致信息损失的问题,采用本发明可提高语音大模型对任务分析的性能。

本发明授权基于两阶段解耦方式的语音大模型模态对齐方法及装置在权利要求书中公布了:1.一种基于两阶段解耦方式的语音大模型模态对齐方法,其特征在于,所述方法包括:S1、获取预训练的语音数据集以及预训练的任务指令文本;S2、采用Librosa方法对所述语音数据集进行清洗处理,获得清洗后的语音数据集;S3、构建初始的语音大模型;所述初始的语音大模型包括:大语言模型以及对齐模块;其中,所述初始的语音大模型,还包括:语音编码器以及音频编码器;其中,所述语音编码器,用于对输入数据进行处理,获得语义化特征;其中,所述音频编码器,用于对输入数据进行处理,获得音频化特征;其中,所述对齐模块,包括:连续整合激励模块、卷积投影层、所需内容编码器、非所需内容编码器以及解纠缠模块;其中,所述连续整合激励模块,用于对语义化特征进行长度缩减处理,获得缩减后的语义化特征;其中,所述卷积投影层,用于对音频化特征进行长度缩减处理,获得缩减后的音频化特征;其中,所述所需内容编码器,用于从语音输入中编码语言内容信息;其中,所述非所需内容编码器,用于建模非语言的语言特征;其中,所述解纠缠模块,用于对不同模态信息进行分离;S4、将所述清洗后的语音数据集以及所述预训练的任务指令文本输入所述初始的语音大模型中,通过所述对齐模块对所述清洗后的语音数据集进行解耦处理,获得最终的语音特征;采用所述大语言模型的分词器对所述预训练的任务指令文本进行处理,获得预训练的文本特征;通过序列级拼接方式对所述最终的语音特征和所述预训练的文本特征进行处理,获得最终的特征序列;根据最终的特征序列,对所述初始的语音大模型进行预训练,获得预训练好的语音大模型;其中,所述S4的根据最终的特征序列对所述初始的语音大模型进行预训练,获得预训练好的语音大模型,包括:将最终的特征序列输入大语言模型中进行解码,输出解码结果;根据解码结果以及交叉熵损失函数,对所述初始的语音大模型进行预训练,获得预训练好的语音大模型;其中,所述S4的将所述清洗后的语音数据集以及所述预训练的任务指令文本,输入所述初始的语音大模型中,通过所述对齐模块对所述清洗后的语音数据集进行解耦处理,获得最终的语音特征,包括:S41、将所述清洗后的语音数据集以及所述预训练的任务指令文本,输入所述初始的语音大模型中,通过语音编码器对清洗后的语音数据集进行处理,获得语义化特征;通过音频编码器对清洗后的语音数据集进行处理,获得音频化特征;S42、将语义化特征输入连续整合激励模块中进行长度缩减处理,获得缩减后的语义化特征;将音频化特征输入卷积投影层进行长度缩减处理,获得缩减后的音频化特征;S43、将缩减后的语义化特征与缩减后的音频化特征进行序列级别的拼接,获得拼接后的特征;将拼接后的特征输入所需内容编码器中进行处理,获得第一拼接后的特征;将拼接后的特征输入非所需内容编码器中进行处理,获得第二拼接后的特征;S44、将第一拼接后的特征与第二拼接后的特征,输入解纠缠模块中进行解耦处理,获得最终的语音特征;S5、获取指令微调训练集;根据所述指令微调训练集,采用LoRA微调技术对所述预训练好的语音大模型进行指令微调,获得训练好的语音大模型;其中,所述S5的指令微调训练集,包括:指令微调的语音数据集以及语音数据集对应的任务指令文本;其中,所述S5的根据所述指令微调训练集,采用LoRA微调技术对所述预训练好的语音大模型进行指令微调,获得训练好的语音大模型,包括:S51、将指令微调的语音数据集以及语音数据集对应的任务指令文本,输入所述预训练好的语音大模型中,通过大语言模型的分词器对语音数据集对应的任务指令文本进行处理,获得指令微调的文本特征;S52、采用解耦方式对指令微调的语音数据集进行处理,获得指令微调的语音特征;S53、将指令微调的文本特征与指令微调的语音特征进行序列级别的拼接,获得拼接后的特征序列;将特征序列输入大语言模型中,通过LoRA微调技术对大语言模型进行指令微调,获得训练好的语音大模型;S6、获取待处理的语音数据和语音数据对应的指令;将所述待处理的语音数据和语音数据对应的指令,输入所述训练好的语音大模型中进行处理,输出与语音数据对应的指令需求相匹配的文本。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院);中国科学院计算技术研究所,其通讯地址为:518000 广东省深圳市南山区桃源街道深圳大学城哈尔滨工业大学校区;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由AI智能生成
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。