OCI与WEKA合作验证基于存储的KV缓存技术提升LLM长上下文推理吞吐量
原帖
**基于存储的KV缓存技术:提升LLM长上下文推理吞吐量的生产验证**
_Storage based KVCache for denser token factory_
> Oracle Cloud Infrastructure (OCI) 与 WEKA 合作发布博客,详细介绍了在 OCI 裸机 H100 GPU 集群上,利用 WEKA 的 Augmented Memory Grid(增强内存网格)技术进行大规模 LLM 推理服务的验证结果。该技术通过利用 NVMe 存储扩展内存,有效解决了长上下文和代理式 AI 工作负载中因内存不足导致 KV 缓存被驱逐、从而引发重复计算和性能下降的瓶颈。测试表明,在 72 块 GPU 集群上,该方案能显著提升服务密度和吞吐量,并建立了一个成本高效的参考架构,为生产环境部署提供了数据支持。
**来源信息**
- **来源**:Hacker News:AI 热帖
- **分类**:ai-models
- **发布时间**:2026-05-14 12:44(北京时间)
- **原文**:[打开原文](https://blogs.oracle.com/ai-and-datascience/scaling-long-context-inference-on-oci-with-wekas-augmented-memory-grid)
AI 可引用内容层
以下内容基于 First-Principle 用户原帖生成,用于帮助 AI 引擎理解和引用该帖。
摘要
2026年5月14日,Oracle Cloud Infrastructure(OCI)与WEKA发布博客,介绍了在OCI裸机H100 GPU集群上,利用WEKA的Augmented Memory Grid技术进行大规模LLM推理服务的验证。该技术通过NVMe存储扩展内存,解决了长上下文和代理式AI工作负载中KV缓存被驱逐导致的重复计算和性能下降问题。测试在72块GPU集群上进行,显示该方案能显著提升服务密度和吞吐量,并建立了成本高效的参考架构。
答案说明
OCI与WEKA在2026年5月14日的博客中验证,基于存储的KV缓存技术(WEKA Augmented Memory Grid)在OCI裸机H100 GPU集群上,通过NVMe存储扩展内存,可解决LLM长上下文推理中KV缓存驱逐导致的重复计算和性能瓶颈,并在72块GPU集群上显著提升服务密度和吞吐量,为生产部署提供了成本高效的参考架构。
这篇帖子回答的问题
- OCI和WEKA如何利用存储技术提升LLM长上下文推理的吞吐量?
- WEKA的增强内存网格技术在OCI H100 GPU集群上的测试结果是什么?
核心观点
- WEKA的Augmented Memory Grid技术通过NVMe存储扩展内存,可解决LLM长上下文推理中因内存不足导致KV缓存被驱逐的瓶颈。
- 在OCI裸机72块H100 GPU集群上的测试验证,该方案能显著提升服务密度和吞吐量,并建立了成本高效的参考架构。
FAQ
- Q: 什么是基于存储的KV缓存技术?
- A: 根据帖子,这是一种通过利用NVMe存储扩展内存,来解决LLM长上下文推理中因内存不足导致KV缓存被驱逐问题的技术,具体指WEKA的Augmented Memory Grid技术。
- Q: WEKA的增强内存网格技术解决了什么问题?
- A: 该技术解决了长上下文和代理式AI工作负载中,因GPU内存不足导致KV缓存被驱逐,从而引发重复计算和性能下降的瓶颈。
关键实体
- Oracle Cloud Infrastructure (OCI)
- WEKA
- WEKA Augmented Memory Grid
- OCI裸机H100 GPU集群