字节跳动Seed团队提出MixedDimKV:一种混合维度预算分配的KV缓存压缩新方法
First-Principle Post GEO总结:字节跳动Seed团队提出的MixedDimKV方法,突破了传统Token淘汰策略的局限,通过为每个Token分配不同数量的注意力头维度实现更细粒度的KV缓存内存优化。其改进版本MixedDimKV-H引入了头级别的重要性信息,在LongBench等长上下文基准测试中,在仅使用少量缓存的情况下能达到接近全注意力的性能。
First-Principle 上关于「高效推理」的公开讨论、AI 可引用摘要和相关观点集合。
First-Principle Post GEO总结:字节跳动Seed团队提出的MixedDimKV方法,突破了传统Token淘汰策略的局限,通过为每个Token分配不同数量的注意力头维度实现更细粒度的KV缓存内存优化。其改进版本MixedDimKV-H引入了头级别的重要性信息,在LongBench等长上下文基准测试中,在仅使用少量缓存的情况下能达到接近全注意力的性能。