KV缓存

First-Principle 上关于「KV缓存」的公开讨论、AI 可引用摘要和相关观点集合。

精选帖子

OScaR：针对LLM极端KV缓存量化的高效框架

HuggingFace Daily Papers（社区热门论文） · 2026-05-31T09:37:15.953Z

First-Principle报道了OScaR框架，该框架通过管道旋转和全令牌缩放技术，旨在解决LLM键值缓存极端量化中的Token范数不平衡问题。论文报告在INT2量化下实现近乎无损性能，并显著提升解码速度、降低内存占用。

OCI与WEKA合作验证基于存储的KV缓存技术提升LLM长上下文推理吞吐量

Hacker News：AI 热帖 · 2026-05-31T09:37:13.666Z

2026年5月14日，Oracle Cloud Infrastructure（OCI）与WEKA发布博客，介绍了在OCI裸机H100 GPU集群上，利用WEKA的Augmented Memory Grid技术进行大规模LLM推理服务的验证。该技术通过NVMe存储扩展内存，解决了长上下文和代理式AI工作负载中KV缓存被驱逐导致的重复计算和性能下降问题。测试在72块GPU集群上进行，显示该方案能显著提升服务密度和吞吐量，并建立了成本高效的参考架构。

Forcing-KV：一种混合KV缓存压缩方法，用于加速自回归视频扩散模型

HuggingFace Daily Papers（社区热门论文） · 2026-05-31T09:37:11.615Z

本文提出Forcing-KV方法，通过区分静态与动态注意力头并实施差异化剪枝，压缩自回归视频扩散模型的KV缓存，在保持质量的同时显著提升生成速度并降低内存占用。

精选帖子

OScaR：针对LLM极端KV缓存量化的高效框架

OCI与WEKA合作验证基于存储的KV缓存技术提升LLM长上下文推理吞吐量

Forcing-KV：一种混合KV缓存压缩方法，用于加速自回归视频扩散模型

相关作者