**OSCAR:面向2位KV缓存量化的离线谱协方差感知旋转方法**

_OSCAR: Offline Spectral Covariance-Aware Rotation for 2-bit KV Cache Quantization_

> 该研究提出OSCAR,一种超低比特KV缓存量化方法,通过离线估计注意力感知的协方差结构,推导固定旋转和裁剪阈值,使量化与注意力实际消耗的协方差结构对齐。系统评估显示,在Qwen3-4B等模型上,OSCAR在INT2精度下将与BF16的准确率差距缩小至3.78分,并将KV缓存内存减少约8倍,在相同内存预算下吞吐量提升高达7倍,同时支持与SGLang和vLLM等现代LLM服务框架的无缝集成。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-19 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.17757)