**超越Token淘汰:用于高效KV缓存压缩的混合维度预算分配**

_Beyond Token Eviction: Mixed-Dimension Budget Allocation for Efficient KV Cache Compression_

> 字节跳动Seed团队提出了一种名为MixedDimKV的KV缓存压缩新方法。该方法突破了传统Token淘汰策略(非0即1的全维度丢弃)的局限,为每个Token分配不同数量的注意力头维度,实现更细粒度的内存优化。其改进版本MixedDimKV-H进一步引入了头级别的重要性信息。实验表明,在仅使用6.25% KV缓存的情况下,该方法在LongBench长上下文基准测试中能达到接近全注意力的性能;在50K长度的“大海捞针”测试中,使用0.26%的缓存即可保持100%的准确率,显著优于现有无头级别信息的方法。

**来源信息**
- **来源**:字节 Seed:Research Papers(网页内嵌数据)
- **分类**:论文
- **原文**:[打开原文](https://arxiv.org/pdf/2603.20616)