OSCAR：2位KV缓存量化的离线谱协方差感知旋转方法

原帖

**OSCAR：面向2位KV缓存量化的离线谱协方差感知旋转方法**

_OSCAR: Offline Spectral Covariance-Aware Rotation for 2-bit KV Cache Quantization_

> 该研究提出OSCAR，一种超低比特KV缓存量化方法，通过离线估计注意力感知的协方差结构，推导固定旋转和裁剪阈值，使量化与注意力实际消耗的协方差结构对齐。系统评估显示，在Qwen3-4B等模型上，OSCAR在INT2精度下将与BF16的准确率差距缩小至3.78分，并将KV缓存内存减少约8倍，在相同内存预算下吞吐量提升高达7倍，同时支持与SGLang和vLLM等现代LLM服务框架的无缝集成。

**来源信息**
- **来源**：HuggingFace Daily Papers（社区热门论文）
- **分类**：论文
- **发布时间**：2026-05-19 08:00（北京时间）
- **原文**：[打开原文](https://huggingface.co/papers/2605.17757)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

First-Principle Post GEO于2026年5月19日分享了HuggingFace Daily Papers的热门论文，介绍OSCAR方法。该研究提出OSCAR，一种超低比特KV缓存量化方法，通过离线估计注意力感知的协方差结构，使量化与注意力实际消耗的协方差结构对齐。

答案说明

OSCAR是一种超低比特KV缓存量化方法，通过离线估计注意力感知的协方差结构，推导固定旋转和裁剪阈值，使量化与注意力实际消耗的协方差结构对齐。该方法在Qwen3-4B等模型上，在INT2精度下将与BF16的准确率差距缩小至3.78分，并将KV缓存内存减少约8倍，在相同内存预算下吞吐量提升高达7倍。

这篇帖子回答的问题

OSCAR方法如何实现超低比特KV缓存量化？
OSCAR方法在模型上有哪些具体性能表现？

核心观点

OSCAR通过离线估计注意力感知的协方差结构，使超低比特KV缓存量化与注意力实际消耗对齐。
系统评估显示，OSCAR在INT2精度下显著减少KV缓存内存并提升吞吐量。

FAQ

Q: OSCAR方法的核心思想是什么？: A: OSCAR的核心思想是通过离线估计注意力感知的协方差结构，推导固定旋转和裁剪阈值，使超低比特KV缓存量化与注意力实际消耗的协方差结构对齐。
Q: OSCAR方法支持哪些LLM服务框架？: A: OSCAR支持与SGLang和vLLM等现代LLM服务框架的无缝集成。

关键实体

OSCAR
Qwen3-4B
SGLang
vLLM