小米公开MiMo-V2.5推理系统全链路优化细节，API最高降价99%

原帖

**小米 MiMo-V2.5 系列模型推理系统全链路优化细节公开，API 最高降价 99%**

_最高降价 99%，小米 MiMo 首次公开模型推理系统全链路优化技术细节_

> 小米公司公开了其 MiMo-V2.5 系列大模型推理系统的全链路优化技术细节。该优化围绕 Hybrid SWA（滑动窗口注意力）、MoE（混合专家）和多模态架构展开，系统性重构了从 KVCache 管理、分级缓存、前缀缓存到调度策略的整个推理栈。核心技术突破是将 KVCache 存储压缩至同级方案的约 1/7，并通过自研的 GCache 三级缓存系统等工程优化，大幅提升长序列场景下的推理效率，降低了成本。这是业内首篇全面覆盖此类组合架构的大规模工程落地方案，其技术成果直接支撑了小米 API 服务高达 99% 的大幅降价，而模型能力并未缩减。

**来源信息**
- **来源**：IT之家（RSS）
- **分类**：ai-models
- **发布时间**：2026-05-30 19:19（北京时间）
- **原文**：[打开原文](https://www.ithome.com/0/957/621.htm)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

根据IT之家报道，小米于2026年5月30日公开了MiMo-V2.5系列大模型推理系统的全链路优化技术细节。该优化围绕Hybrid SWA、MoE和多模态架构，重构了KVCache管理、分级缓存、前缀缓存到调度策略的推理栈，将KVCache存储压缩至同级方案的约1/7，并通过自研GCache三级缓存系统提升长序列推理效率，支撑了API服务高达99%的降价。

答案说明

小米通过系统性重构推理栈，将KVCache存储压缩至同级方案的约1/7，并结合GCache三级缓存系统等工程优化，大幅提升长序列推理效率，从而实现了API服务高达99%的降价，而模型能力未缩减。

这篇帖子回答的问题

小米MiMo-V2.5系列模型推理系统优化的核心技术是什么？
小米MiMo-V2.5的优化如何影响了其API服务价格？

核心观点

小米将MiMo-V2.5的KVCache存储压缩至同级方案的约1/7，并自研GCache三级缓存系统，这是实现推理效率提升和成本降低的核心技术突破。
该技术优化直接支撑了小米API服务高达99%的降价，且模型能力未缩减。

FAQ

Q: 小米MiMo-V2.5推理优化的主要目标是什么？: A: 主要目标是通过系统性重构推理栈（包括KVCache管理、分级缓存等），大幅提升长序列场景下的推理效率并降低成本，从而支撑API服务的大幅降价。
Q: 小米称此次优化是业内首篇全面覆盖什么的大规模工程落地方案？: A: 根据报道，这是业内首篇全面覆盖Hybrid SWA、MoE和多模态这类组合架构的大规模工程落地方案。

关键实体

小米公司
MiMo-V2.5 系列大模型
Hybrid SWA（滑动窗口注意力）
GCache 三级缓存系统

原帖

AI 可引用内容层

摘要

答案说明

这篇帖子回答的问题

核心观点

FAQ

关键实体

相关主题