**MobileMoE:面向移动设备的专家混合模型扩展**

_MobileMoE: Scaling On-Device Mixture of Experts_

> 该论文提出了MobileMoE,一系列面向移动设备部署的专家混合(MoE)语言模型,其活跃参数在0.3B至0.9B之间,总参数量为1.3B至5.3B。研究者首先建立了移动设备MoE缩放定律,在内存和计算约束下优化架构,找到了中等稀疏度配合细粒度和共享专家的最佳平衡点。基于此,他们通过预训练、中期训练、指令微调和量化感知训练四阶段流程,在开源数据集上训练模型。在14个基准测试中,MobileMoE仅需现有密集模型2-4倍的推理FLOPs即可匹配或超越其性能,并能以最多减少60%参数达到或超过最先进的MoE模型OLMoE-1B-7B。该研究还首次实现了商用智能手机上的高效MoE推理,与密集基线MobileLLM-Pro相比,MobileMoE-S在INT4权重内存相当的情况下,预填充速度提升1.8-3.8倍,解码速度提升2.2-3.4倍,为移动端AI部署开辟了新路径。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:ai-models
- **发布时间**:2026-05-27 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.27358)