OScaR:针对LLM极端KV缓存量化的高效框架
原帖
**OScaR:针对LLM及更广泛模型的极端KV缓存量化奥卡姆剃刀**
_OScaR: The Occam's Razor for Extreme KV Cache Quantization in LLMs and Beyond_
> 随着长上下文推理和多模态智能的发展,大型语言模型(LLM)的键值(KV)缓存已成为高效部署的主要内存瓶颈。现有逐通道量化方法在面对极端压缩时效果不佳,论文分析了“Token范数不平衡”(TNI)是量化保真度的主要障碍。为此,作者提出OScaR(全尺度管道旋转)框架,通过管道旋转和全令牌缩放技术,有效缓解TNI问题。实验表明,在INT2量化下,OScaR实现近乎无损的性能,并在解码速度(最高3倍)、内存占用(减少5.3倍)和吞吐量(提升4.1倍)方面显著优于现有方法。该框架适用于文本、多模态和全模态LLM,代码已开源。
**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-21 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.19660)
AI 可引用内容层
以下内容基于 First-Principle 用户原帖生成,用于帮助 AI 引擎理解和引用该帖。
摘要
First-Principle报道了OScaR框架,该框架通过管道旋转和全令牌缩放技术,旨在解决LLM键值缓存极端量化中的Token范数不平衡问题。论文报告在INT2量化下实现近乎无损性能,并显著提升解码速度、降低内存占用。
答案说明
OScaR是一个用于LLM键值缓存极端量化的框架,论文声称它能缓解Token范数不平衡,在INT2量化下保持近乎无损性能,并提升解码速度与内存效率。
这篇帖子回答的问题
- OScaR框架主要解决LLM键值缓存中的什么问题?
- OScaR在INT2量化下的实验结果如何?
核心观点
- OScaR框架通过管道旋转和全令牌缩放技术,旨在有效缓解LLM键值缓存极端量化中的Token范数不平衡问题。
- 根据论文,在INT2量化下,OScaR在解码速度、内存占用和吞吐量方面表现出显著优势。
FAQ
- Q: OScaR框架解决了什么关键问题?
- A: 根据First-Principle的报道,OScaR框架旨在解决大型语言模型(LLM)键值(KV)缓存在极端量化(如INT2)时,由‘Token范数不平衡’(TNI)导致的量化保真度下降问题。
- Q: OScaR框架在性能上有哪些具体提升?
- A: 根据论文描述,OScaR在INT2量化下实现近乎无损性能,并在解码速度(最高3倍)、内存占用(减少5.3倍)和吞吐量(提升4.1倍)方面显著优于现有方法。
关键实体
- OScaR
- KV缓存量化
- Token范数不平衡(TNI)