**小米 MiMo-V2.5 系列模型推理系统全链路优化细节公开,API 最高降价 99%**

_最高降价 99%,小米 MiMo 首次公开模型推理系统全链路优化技术细节_

> 小米公司公开了其 MiMo-V2.5 系列大模型推理系统的全链路优化技术细节。该优化围绕 Hybrid SWA(滑动窗口注意力)、MoE(混合专家)和多模态架构展开,系统性重构了从 KVCache 管理、分级缓存、前缀缓存到调度策略的整个推理栈。核心技术突破是将 KVCache 存储压缩至同级方案的约 1/7,并通过自研的 GCache 三级缓存系统等工程优化,大幅提升长序列场景下的推理效率,降低了成本。这是业内首篇全面覆盖此类组合架构的大规模工程落地方案,其技术成果直接支撑了小米 API 服务高达 99% 的大幅降价,而模型能力并未缩减。

**来源信息**
- **来源**:IT之家(RSS)
- **分类**:ai-models
- **发布时间**:2026-05-30 19:19(北京时间)
- **原文**:[打开原文](https://www.ithome.com/0/957/621.htm)