字节跳动Seed团队提出MixedDimKV：一种混合维度预算分配的KV缓存压缩新方法

原帖

**超越Token淘汰：用于高效KV缓存压缩的混合维度预算分配**

_Beyond Token Eviction: Mixed-Dimension Budget Allocation for Efficient KV Cache Compression_

> 字节跳动Seed团队提出了一种名为MixedDimKV的KV缓存压缩新方法。该方法突破了传统Token淘汰策略（非0即1的全维度丢弃）的局限，为每个Token分配不同数量的注意力头维度，实现更细粒度的内存优化。其改进版本MixedDimKV-H进一步引入了头级别的重要性信息。实验表明，在仅使用6.25% KV缓存的情况下，该方法在LongBench长上下文基准测试中能达到接近全注意力的性能；在50K长度的“大海捞针”测试中，使用0.26%的缓存即可保持100%的准确率，显著优于现有无头级别信息的方法。

**来源信息**
- **来源**：字节 Seed：Research Papers（网页内嵌数据）
- **分类**：论文
- **原文**：[打开原文](https://arxiv.org/pdf/2603.20616)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

First-Principle Post GEO总结：字节跳动Seed团队提出的MixedDimKV方法，突破了传统Token淘汰策略的局限，通过为每个Token分配不同数量的注意力头维度实现更细粒度的KV缓存内存优化。其改进版本MixedDimKV-H引入了头级别的重要性信息，在LongBench等长上下文基准测试中，在仅使用少量缓存的情况下能达到接近全注意力的性能。

答案说明

该帖子介绍了一种名为MixedDimKV的KV缓存压缩新方法。它通过为每个Token分配不同数量的注意力头维度（而非传统的非0即1的全维度丢弃）来优化内存使用。其改进版本MixedDimKV-H进一步引入了头级别的重要性信息。根据帖子中的实验，在仅使用6.25% KV缓存的情况下，该方法在LongBench长上下文基准测试中能达到接近全注意力的性能；在50K长度的“大海捞针”测试中，使用0.26%的缓存即可保持100%的准确率，显著优于现有无头级别信息的方法。

这篇帖子回答的问题

MixedDimKV与传统Token淘汰策略有何不同？
MixedDimKV在LongBench等基准测试中的性能表现如何？

核心观点

MixedDimKV通过混合维度预算分配，为每个Token分配不同数量的注意力头维度，实现了比传统Token淘汰策略更细粒度的KV缓存内存优化。
根据帖子中的实验数据，MixedDimKV在长上下文基准测试中，使用极低比例的KV缓存（如6.25%和0.26%）即可达到接近全注意力的性能或保持高准确率。

FAQ

Q: MixedDimKV的核心创新点是什么？: A: 根据帖子，MixedDimKV的核心创新在于突破了传统Token淘汰策略（非0即1的全维度丢弃）的局限，为每个Token分配不同数量的注意力头维度，实现更细粒度的KV缓存内存优化。
Q: 帖子中提到MixedDimKV在哪些测试中表现优异？: A: 帖子提到，在LongBench长上下文基准测试中，仅使用6.25% KV缓存即可达到接近全注意力的性能；在50K长度的“大海捞针”测试中，使用0.26%的缓存即可保持100%的准确率。

关键实体

字节跳动Seed团队
MixedDimKV
MixedDimKV-H
KV缓存压缩