**OScaR:针对LLM及更广泛模型的极端KV缓存量化奥卡姆剃刀**

_OScaR: The Occam's Razor for Extreme KV Cache Quantization in LLMs and Beyond_

> 随着长上下文推理和多模态智能的发展,大型语言模型(LLM)的键值(KV)缓存已成为高效部署的主要内存瓶颈。现有逐通道量化方法在面对极端压缩时效果不佳,论文分析了“Token范数不平衡”(TNI)是量化保真度的主要障碍。为此,作者提出OScaR(全尺度管道旋转)框架,通过管道旋转和全令牌缩放技术,有效缓解TNI问题。实验表明,在INT2量化下,OScaR实现近乎无损的性能,并在解码速度(最高3倍)、内存占用(减少5.3倍)和吞吐量(提升4.1倍)方面显著优于现有方法。该框架适用于文本、多模态和全模态LLM,代码已开源。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-21 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.19660)