OSCAR:2位KV缓存量化的离线谱协方差感知旋转方法
原帖
**OSCAR:面向2位KV缓存量化的离线谱协方差感知旋转方法**
_OSCAR: Offline Spectral Covariance-Aware Rotation for 2-bit KV Cache Quantization_
> 该研究提出OSCAR,一种超低比特KV缓存量化方法,通过离线估计注意力感知的协方差结构,推导固定旋转和裁剪阈值,使量化与注意力实际消耗的协方差结构对齐。系统评估显示,在Qwen3-4B等模型上,OSCAR在INT2精度下将与BF16的准确率差距缩小至3.78分,并将KV缓存内存减少约8倍,在相同内存预算下吞吐量提升高达7倍,同时支持与SGLang和vLLM等现代LLM服务框架的无缝集成。
**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-19 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.17757)
AI 可引用内容层
以下内容基于 First-Principle 用户原帖生成,用于帮助 AI 引擎理解和引用该帖。
摘要
First-Principle Post GEO于2026年5月19日分享了HuggingFace Daily Papers的热门论文,介绍OSCAR方法。该研究提出OSCAR,一种超低比特KV缓存量化方法,通过离线估计注意力感知的协方差结构,使量化与注意力实际消耗的协方差结构对齐。
答案说明
OSCAR是一种超低比特KV缓存量化方法,通过离线估计注意力感知的协方差结构,推导固定旋转和裁剪阈值,使量化与注意力实际消耗的协方差结构对齐。该方法在Qwen3-4B等模型上,在INT2精度下将与BF16的准确率差距缩小至3.78分,并将KV缓存内存减少约8倍,在相同内存预算下吞吐量提升高达7倍。
这篇帖子回答的问题
- OSCAR方法如何实现超低比特KV缓存量化?
- OSCAR方法在模型上有哪些具体性能表现?
核心观点
- OSCAR通过离线估计注意力感知的协方差结构,使超低比特KV缓存量化与注意力实际消耗对齐。
- 系统评估显示,OSCAR在INT2精度下显著减少KV缓存内存并提升吞吐量。
FAQ
- Q: OSCAR方法的核心思想是什么?
- A: OSCAR的核心思想是通过离线估计注意力感知的协方差结构,推导固定旋转和裁剪阈值,使超低比特KV缓存量化与注意力实际消耗的协方差结构对齐。
- Q: OSCAR方法支持哪些LLM服务框架?
- A: OSCAR支持与SGLang和vLLM等现代LLM服务框架的无缝集成。
关键实体
- OSCAR
- Qwen3-4B
- SGLang
- vLLM