哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院);中国科学院计算技术研究所陈科海获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院);中国科学院计算技术研究所申请的专利一种语音大模型的自适应层次表征对齐训练方法及装置获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119721258B 。
龙图腾网通过国家知识产权局官网在2025-06-10发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510206425.6,技术领域涉及:G06N5/04;该发明授权一种语音大模型的自适应层次表征对齐训练方法及装置是由陈科海;刘恒律;白雪峰;冯洋;张民设计研发完成,并于2025-02-25向国家知识产权局提交的专利申请。
本一种语音大模型的自适应层次表征对齐训练方法及装置在说明书摘要公布了:本发明提供一种语音大模型的自适应层次表征对齐训练方法及装置,涉及自然语言处理技术领域;该方法包括:基于内部语音适应器,根据候选语音大模型,使用源语音以及文本提示词进行模型训练,获得第一语音大模型;基于跨模态语义检索任务,根据源语音以及源语音转录文本,对第一语音大模型的进行语义检索能力筛选,获得最优神经网络层级;基于最优神经网络层级,根据源语音、文本提示词和源语音转录文本,通过第一语音大模型进行预测,并计算模型预测损失;根据模型预测损失,对第一语音大模型进行参数优化,获得第二语音大模型;本发明是一种充分利用源语音和转录文本的映射关系的高效且准确的自适应层次表征对齐训练方法。
本发明授权一种语音大模型的自适应层次表征对齐训练方法及装置在权利要求书中公布了:1.一种语音大模型的自适应层次表征对齐训练方法,其特征在于,所述方法包括:获取源语音以及源语音目标文本;将所述源语音输入候选语音大模型进行文本转录,获得源语音转录文本;基于内部语音适应器,根据所述候选语音大模型,使用所述源语音以及文本提示词进行模型训练,获得第一语音大模型;基于跨模态语义检索任务,根据所述源语音以及所述源语音转录文本,对所述第一语音大模型的多个神经网络层级进行语义检索能力筛选,获得语义表征对齐的最优神经网络层级;其中,所述基于跨模态语义检索任务,根据所述源语音以及所述源语音转录文本,对所述第一语音大模型的多个神经网络层级进行语义检索能力筛选,获得语义表征对齐的最优神经网络层级,包括:根据所述源语音,通过所述第一语音大模型进行多个神经网络层级数据表征提取,获得语音表征矩阵;根据所述源语音转录文本,通过所述第一语音大模型进行多个神经网络层级数据表征提取,获得文本表征矩阵;基于最优传输理论的沃瑟斯坦度量构建跨模态语义检索任务;基于所述跨模态语义检索任务,根据所述语音表征矩阵以及所述文本表征矩阵进行相似度计算,得到相似度矩阵;基于检索指标,根据所述相似度矩阵,对所述第一语音大模型的多个神经网络层级进行语义检索能力筛选,获得语义表征对齐的最优神经网络层级;所述检索指标包括前K项召回率以及平均倒数排名;基于所述最优神经网络层级,将所述源语音以及所述文本提示词输入所述第一语音大模型进行文本预测,获得语音表征、语音注意力权重矩阵和预测文本;基于所述最优神经网络层级,将所述源语音转录文本以及所述文本提示词输入所述第一语音大模型进行文本表征提取,获得最优文本表征以及文本注意力权重矩阵;根据所述目标文本、所述语音表征、语音注意力权重矩阵、预测文本、最优文本表征和文本注意力权重矩阵进行损失函数计算,获得模型预测损失;根据所述模型预测损失,对所述第一语音大模型进行参数优化,获得第二语音大模型。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院);中国科学院计算技术研究所,其通讯地址为:518000 广东省深圳市南山区桃源街道深圳大学城哈尔滨工业大学校区;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。