中国人民解放军国防科技大学蹇松雷获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉中国人民解放军国防科技大学申请的专利基于动态稀疏性的大语言模型推理加速方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN121235130B 。
龙图腾网通过国家知识产权局官网在2026-03-20发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511794494.X,技术领域涉及:G06N5/04;该发明授权基于动态稀疏性的大语言模型推理加速方法及系统是由蹇松雷;杨莹;余杰;李宝;张建锋;丁滟;谭霜;王怡琦;郭勇;王晓川设计研发完成,并于2025-12-02向国家知识产权局提交的专利申请。
本基于动态稀疏性的大语言模型推理加速方法及系统在说明书摘要公布了:本发明公开了一种基于动态稀疏性的大语言模型推理加速方法及系统,本发明方法包括针对原始的目标大语言模型,在其支持结构动态精简的网络模块原有的主计算路径上增加并行的旁路预测路径,在旁路预测路径中嵌入选择激活的预测器,所述预测器用于根据该网络模块的输入向量来生成需激活的网络子模块,从而得到支持稠密模式和稀疏模式两种工作模式的目标大语言模型;在需要执行稀疏模式时,激活旁路预测路径中嵌入的预测器以获得快速推理结果;在需要执行稠密模式时,关闭旁路预测路径中嵌入的预测器以获得全面推理结果。本发明旨在解决大语言模型推理过程中的显存占用过高与时间消耗过大的问题,实现计算效率与资源消耗的优化平衡。
本发明授权基于动态稀疏性的大语言模型推理加速方法及系统在权利要求书中公布了:1.一种基于动态稀疏性的大语言模型推理加速方法,其特征在于,应用于自然语言处理,包括下述步骤: S101,针对原始的目标大语言模型,在其支持结构动态精简的网络模块原有的主计算路径上增加并行的旁路预测路径,在旁路预测路径中嵌入选择激活的预测器,所述预测器用于根据该网络模块的输入向量来生成需激活的网络子模块,从而得到支持稠密模式和稀疏模式两种工作模式的目标大语言模型; S102,在需要执行稀疏模式时,激活旁路预测路径中嵌入的预测器,使得目标大语言模型中各个网络模块根据输入向量动态选择需激活的网络子模块执行计算以获得目标大语言模型的快速推理结果;在需要执行稠密模式时,关闭旁路预测路径中嵌入的预测器,使得目标大语言模型中各个网络模块选择激活全部网络子模块执行全参数计算以获得目标大语言模型的全面推理结果; 步骤S101中支持结构动态精简的网络模块包括Transformer块中的多头注意力层和MLP层,在每个多头注意力层的旁路预测路径中嵌入选择激活的预测器为注意力预测器,在每个MLP层的旁路预测路径中嵌入选择激活的预测器为MLP预测器,所述注意力预测器用于根据多头注意力层的输入向量预测生成多头注意力层需激活的注意力头索引,所述多头注意力层的主计算路径仅对需激活的注意力头执行多头注意力计算;所述MLP预测器用于根据MLP层的输入向量预测生成MLP层需激活的神经元索引,所述MLP层的主计算路径仅对需激活的神经元执行线性变换与非线性映射计算; 步骤S102中在需要执行稀疏模式时,包括确定任务的待选词元数量为M,激活旁路预测路径中嵌入的预测器,使得目标大语言模型中各个网络模块根据输入向量动态选择需激活的网络子模块执行计算,将用户输入的提示词利用目标大语言模型在稀疏模式下执行M次推理获得M个待选词元作为目标大语言模型的快速推理结果; 步骤S102中在需要执行稠密模式时,包括关闭旁路预测路径中嵌入的预测器,使得目标大语言模型中各个网络模块选择激活全部网络子模块执行全参数计算以获得目标大语言模型的全面推理结果,将用户输入的提示词、目标大语言模型在稀疏模式下得到的M个待选词元拼接作为新的输入词元序列,将输入词元序列利用目标大语言模型在稠密模式下执行多次推理获得目标大语言模型的全面推理结果。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中国人民解放军国防科技大学,其通讯地址为:410073 湖南省长沙市开福区德雅路109号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励