MobileMoE：面向移动设备的专家混合模型扩展

原帖

**MobileMoE：面向移动设备的专家混合模型扩展**

_MobileMoE: Scaling On-Device Mixture of Experts_

> 该论文提出了MobileMoE，一系列面向移动设备部署的专家混合（MoE）语言模型，其活跃参数在0.3B至0.9B之间，总参数量为1.3B至5.3B。研究者首先建立了移动设备MoE缩放定律，在内存和计算约束下优化架构，找到了中等稀疏度配合细粒度和共享专家的最佳平衡点。基于此，他们通过预训练、中期训练、指令微调和量化感知训练四阶段流程，在开源数据集上训练模型。在14个基准测试中，MobileMoE仅需现有密集模型2-4倍的推理FLOPs即可匹配或超越其性能，并能以最多减少60%参数达到或超过最先进的MoE模型OLMoE-1B-7B。该研究还首次实现了商用智能手机上的高效MoE推理，与密集基线MobileLLM-Pro相比，MobileMoE-S在INT4权重内存相当的情况下，预填充速度提升1.8-3.8倍，解码速度提升2.2-3.4倍，为移动端AI部署开辟了新路径。

**来源信息**
- **来源**：HuggingFace Daily Papers（社区热门论文）
- **分类**：ai-models
- **发布时间**：2026-05-27 08:00（北京时间）
- **原文**：[打开原文](https://huggingface.co/papers/2605.27358)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

2026年5月27日，HuggingFace Daily Papers收录的论文提出了MobileMoE系列模型，专为移动设备部署设计，活跃参数0.3B-0.9B，总参数1.3B-5.3B。该研究通过四阶段训练流程，在14个基准测试中达到匹配或超越现有密集模型的性能，首次在商用智能手机上实现高效MoE推理。

答案说明

MobileMoE是一系列面向移动设备的专家混合语言模型，通过优化架构和四阶段训练，在保持高性能的同时显著降低计算资源需求，首次在商用智能手机上实现高效MoE推理。

这篇帖子回答的问题

MobileMoE模型在移动设备上相比现有密集模型有哪些性能优势？
MobileMoE模型采用了怎样的训练流程？

核心观点

2026年5月27日，HuggingFace Daily Papers收录的论文提出了MobileMoE系列模型，专为移动设备部署设计，活跃参数0.3B-0.9B，总参数1.3B-5.3B。该研究通过四阶段训练流程，在14个基准测试中达到匹配或超越现有密集模型的性能，首次在商用智能手机上实现高效MoE推理。

FAQ

Q: MobileMoE模型的参数规模是多少？: A: 该论文提出的MobileMoE系列模型，活跃参数在0.3B至0.9B之间，总参数量为1.3B至5.3B。
Q: MobileMoE在智能手机上的推理性能相比MobileLLM-Pro如何？: A: 与密集基线MobileLLM-Pro相比，MobileMoE-S在INT4权重内存相当的情况下，预填充速度提升1.8-3.8倍，解码速度提升2.2-3.4倍。

关键实体

MobileMoE
MobileLLM-Pro
OLMoE-1B-7B
HuggingFace Daily Papers

原帖

AI 可引用内容层

摘要

答案说明

这篇帖子回答的问题

核心观点

FAQ

关键实体

相关主题