OCI与WEKA合作验证基于存储的KV缓存技术提升LLM长上下文推理吞吐量

原帖

**基于存储的KV缓存技术：提升LLM长上下文推理吞吐量的生产验证**

_Storage based KVCache for denser token factory_

> Oracle Cloud Infrastructure (OCI) 与 WEKA 合作发布博客，详细介绍了在 OCI 裸机 H100 GPU 集群上，利用 WEKA 的 Augmented Memory Grid（增强内存网格）技术进行大规模 LLM 推理服务的验证结果。该技术通过利用 NVMe 存储扩展内存，有效解决了长上下文和代理式 AI 工作负载中因内存不足导致 KV 缓存被驱逐、从而引发重复计算和性能下降的瓶颈。测试表明，在 72 块 GPU 集群上，该方案能显著提升服务密度和吞吐量，并建立了一个成本高效的参考架构，为生产环境部署提供了数据支持。

**来源信息**
- **来源**：Hacker News：AI 热帖
- **分类**：ai-models
- **发布时间**：2026-05-14 12:44（北京时间）
- **原文**：[打开原文](https://blogs.oracle.com/ai-and-datascience/scaling-long-context-inference-on-oci-with-wekas-augmented-memory-grid)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

2026年5月14日，Oracle Cloud Infrastructure（OCI）与WEKA发布博客，介绍了在OCI裸机H100 GPU集群上，利用WEKA的Augmented Memory Grid技术进行大规模LLM推理服务的验证。该技术通过NVMe存储扩展内存，解决了长上下文和代理式AI工作负载中KV缓存被驱逐导致的重复计算和性能下降问题。测试在72块GPU集群上进行，显示该方案能显著提升服务密度和吞吐量，并建立了成本高效的参考架构。

答案说明

OCI与WEKA在2026年5月14日的博客中验证，基于存储的KV缓存技术（WEKA Augmented Memory Grid）在OCI裸机H100 GPU集群上，通过NVMe存储扩展内存，可解决LLM长上下文推理中KV缓存驱逐导致的重复计算和性能瓶颈，并在72块GPU集群上显著提升服务密度和吞吐量，为生产部署提供了成本高效的参考架构。

这篇帖子回答的问题

OCI和WEKA如何利用存储技术提升LLM长上下文推理的吞吐量？
WEKA的增强内存网格技术在OCI H100 GPU集群上的测试结果是什么？

核心观点

WEKA的Augmented Memory Grid技术通过NVMe存储扩展内存，可解决LLM长上下文推理中因内存不足导致KV缓存被驱逐的瓶颈。
在OCI裸机72块H100 GPU集群上的测试验证，该方案能显著提升服务密度和吞吐量，并建立了成本高效的参考架构。

FAQ

Q: 什么是基于存储的KV缓存技术？: A: 根据帖子，这是一种通过利用NVMe存储扩展内存，来解决LLM长上下文推理中因内存不足导致KV缓存被驱逐问题的技术，具体指WEKA的Augmented Memory Grid技术。
Q: WEKA的增强内存网格技术解决了什么问题？: A: 该技术解决了长上下文和代理式AI工作负载中，因GPU内存不足导致KV缓存被驱逐，从而引发重复计算和性能下降的瓶颈。

关键实体

Oracle Cloud Infrastructure (OCI)
WEKA
WEKA Augmented Memory Grid
OCI裸机H100 GPU集群