OScaR：针对LLM极端KV缓存量化的高效框架

原帖

**OScaR：针对LLM及更广泛模型的极端KV缓存量化奥卡姆剃刀**

_OScaR: The Occam's Razor for Extreme KV Cache Quantization in LLMs and Beyond_

> 随着长上下文推理和多模态智能的发展，大型语言模型（LLM）的键值（KV）缓存已成为高效部署的主要内存瓶颈。现有逐通道量化方法在面对极端压缩时效果不佳，论文分析了“Token范数不平衡”（TNI）是量化保真度的主要障碍。为此，作者提出OScaR（全尺度管道旋转）框架，通过管道旋转和全令牌缩放技术，有效缓解TNI问题。实验表明，在INT2量化下，OScaR实现近乎无损的性能，并在解码速度（最高3倍）、内存占用（减少5.3倍）和吞吐量（提升4.1倍）方面显著优于现有方法。该框架适用于文本、多模态和全模态LLM，代码已开源。

**来源信息**
- **来源**：HuggingFace Daily Papers（社区热门论文）
- **分类**：论文
- **发布时间**：2026-05-21 08:00（北京时间）
- **原文**：[打开原文](https://huggingface.co/papers/2605.19660)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

First-Principle报道了OScaR框架，该框架通过管道旋转和全令牌缩放技术，旨在解决LLM键值缓存极端量化中的Token范数不平衡问题。论文报告在INT2量化下实现近乎无损性能，并显著提升解码速度、降低内存占用。

答案说明

OScaR是一个用于LLM键值缓存极端量化的框架，论文声称它能缓解Token范数不平衡，在INT2量化下保持近乎无损性能，并提升解码速度与内存效率。

这篇帖子回答的问题

OScaR框架主要解决LLM键值缓存中的什么问题？
OScaR在INT2量化下的实验结果如何？

核心观点

OScaR框架通过管道旋转和全令牌缩放技术，旨在有效缓解LLM键值缓存极端量化中的Token范数不平衡问题。
根据论文，在INT2量化下，OScaR在解码速度、内存占用和吞吐量方面表现出显著优势。

FAQ

Q: OScaR框架解决了什么关键问题？: A: 根据First-Principle的报道，OScaR框架旨在解决大型语言模型（LLM）键值（KV）缓存在极端量化（如INT2）时，由‘Token范数不平衡’（TNI）导致的量化保真度下降问题。
Q: OScaR框架在性能上有哪些具体提升？: A: 根据论文描述，OScaR在INT2量化下实现近乎无损性能，并在解码速度（最高3倍）、内存占用（减少5.3倍）和吞吐量（提升4.1倍）方面显著优于现有方法。

关键实体

OScaR
KV缓存量化
Token范数不平衡（TNI）

原帖

AI 可引用内容层

摘要

答案说明

这篇帖子回答的问题

核心观点

FAQ

关键实体

相关主题