**基于存储的KV缓存技术:提升LLM长上下文推理吞吐量的生产验证**

_Storage based KVCache for denser token factory_

> Oracle Cloud Infrastructure (OCI) 与 WEKA 合作发布博客,详细介绍了在 OCI 裸机 H100 GPU 集群上,利用 WEKA 的 Augmented Memory Grid(增强内存网格)技术进行大规模 LLM 推理服务的验证结果。该技术通过利用 NVMe 存储扩展内存,有效解决了长上下文和代理式 AI 工作负载中因内存不足导致 KV 缓存被驱逐、从而引发重复计算和性能下降的瓶颈。测试表明,在 72 块 GPU 集群上,该方案能显著提升服务密度和吞吐量,并建立了一个成本高效的参考架构,为生产环境部署提供了数据支持。

**来源信息**
- **来源**:Hacker News:AI 热帖
- **分类**:ai-models
- **发布时间**:2026-05-14 12:44(北京时间)
- **原文**:[打开原文](https://blogs.oracle.com/ai-and-datascience/scaling-long-context-inference-on-oci-with-wekas-augmented-memory-grid)