**OCTOPUS:通过八面体参数化优化Transformer的KV缓存,在最优平方误差量化下**

_OCTOPUS: Optimized KV Cache for Transformers via Octahedral Parametrization Under optimal Squared error quantization_

> 这篇论文提出了一种名为OCTOPUS的KV缓存压缩新方法,针对长上下文自回归推理中的内存瓶颈问题。它基于旋转预处理编解码范式,创新性地通过八面体参数化将旋转后的坐标三元组联合量化,实现非均匀比特分配。该方法在文本、视频和音频任务上,在各种比特宽度下均达到或超越了现有旋转编解码器的性能,尤其在极端压缩时优势更明显。此外,它通过融合的Triton实现在线重构键值,不会增加解码延迟。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-21 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.21226)