中南大学盛津芳获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉中南大学申请的专利一种面向大语言模型的自适应KV缓存压缩方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN121542395B 。
龙图腾网通过国家知识产权局官网在2026-05-05发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202610065950.5,技术领域涉及:G06F16/3329;该发明授权一种面向大语言模型的自适应KV缓存压缩方法及系统是由盛津芳;王崇宇;王斌;张金钟;陈新;何龙飞;邱贤阳;史秀志设计研发完成,并于2026-01-19向国家知识产权局提交的专利申请。
本一种面向大语言模型的自适应KV缓存压缩方法及系统在说明书摘要公布了:本发明涉及人工智能与大语言模型推理优化技术领域,公开了一种面向大语言模型的自适应KV缓存压缩方法及系统,方法包括:构建词元重要性度量机制;分析大语言模型推理中注意力头分布结构,并构建多种剪枝策略;基于词元重要性度量机制与所述注意力头分布结构,并基于剪枝策略设计自适应键值缓存压缩混合策略集;构建静态自适应键值缓存压缩方法,在大语言模型推理的预填充阶段自动分配键值缓存压缩策略;在解码阶段,基于已分配的键值缓存压缩策略对键值缓存进行自适应压缩。本发明可以在不依赖显式注意力分数计算的前提下实现对键值缓存的高效压缩,并兼容系统级推理优化框架,保持生成性能的同时显著降低显存消耗并增强长上下文推理能力。
本发明授权一种面向大语言模型的自适应KV缓存压缩方法及系统在权利要求书中公布了:1.一种面向大语言模型的自适应KV缓存压缩方法,其特征在于,所述方法包括: S1:基于大语言模型中键向量与注意力分数的数值分布特征,构建以键向量的L2范数为核心的词元重要性度量机制; S2:分析大语言模型推理中注意力头分布结构,得到注意力头分布模式; S3:基于所述词元重要性度量机制与所述注意力头分布模式构建多种剪枝策略,并基于剪枝策略设计自适应键值缓存压缩混合策略集; S4:基于自适应键值缓存压缩混合策略集构建静态自适应键值缓存压缩方法,用于在大语言模型推理的预填充阶段自动分配键值缓存压缩策略;在大语言模型推理的解码阶段,基于已分配的键值缓存压缩策略对键值缓存进行自适应压缩; 所述基于大语言模型中键向量与注意力分数的数值分布特征,构建以键向量的L2范数为核心的词元重要性度量机制,包括: 计算输入词元序列中第i个词元的键向量的L2范数,满足如下表达式: ; 其中,为第i个词元的键向量,为第i个词元的键向量的第j个分量值; 然后对不同层的L2范数值进行归一化处理,获得标准化指标,满足如下表达式: ; 其中,为当前层所有键向量范数的均值,为当前层所有键向量范数的标准差; 将键值缓存剪枝导致的注意力损失定义为与丢弃的键值向量对相关联的注意力分数之和,用于建立压缩强度与大语言模型性能之间的映射关系,满足如下表达式: ; 其中,为大语言模型的第l层的第h个注意力头的第i个token的注意力分数,D表示丢弃的k个键值向量对的位置,满足; 基于注意力损失函数定义自适应阈值调节函数,满足如下表达式: ; 其中,为参考注意力损失,为采用淘汰低L2范数的键值向量对导致的注意力损失; 计算跨层加权的注意力损失指数ALI,满足如下表达式: ; 其中,H为大语言模型的注意力头总数,L为大语言模型的层数,N为输入序列的token总数; 所述基于剪枝策略设计自适应键值缓存压缩混合策略集,包括: 以缓存利用率与注意力恢复度为联合优化目标,构建自适应策略选择公式,满足如下表达式: ; 其中,为最小内存成本和恢复比率的最优策略,表示策略P对键值缓存的显存占用,表示注意力损失,为层间自适应平衡因子。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中南大学,其通讯地址为:410083 湖南省长沙市岳麓区麓山南路932号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励