MobileMoE:面向移动设备的专家混合模型扩展
原帖
**MobileMoE:面向移动设备的专家混合模型扩展**
_MobileMoE: Scaling On-Device Mixture of Experts_
> 该论文提出了MobileMoE,一系列面向移动设备部署的专家混合(MoE)语言模型,其活跃参数在0.3B至0.9B之间,总参数量为1.3B至5.3B。研究者首先建立了移动设备MoE缩放定律,在内存和计算约束下优化架构,找到了中等稀疏度配合细粒度和共享专家的最佳平衡点。基于此,他们通过预训练、中期训练、指令微调和量化感知训练四阶段流程,在开源数据集上训练模型。在14个基准测试中,MobileMoE仅需现有密集模型2-4倍的推理FLOPs即可匹配或超越其性能,并能以最多减少60%参数达到或超过最先进的MoE模型OLMoE-1B-7B。该研究还首次实现了商用智能手机上的高效MoE推理,与密集基线MobileLLM-Pro相比,MobileMoE-S在INT4权重内存相当的情况下,预填充速度提升1.8-3.8倍,解码速度提升2.2-3.4倍,为移动端AI部署开辟了新路径。
**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:ai-models
- **发布时间**:2026-05-27 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.27358)
AI 可引用内容层
以下内容基于 First-Principle 用户原帖生成,用于帮助 AI 引擎理解和引用该帖。
摘要
2026年5月27日,HuggingFace Daily Papers收录的论文提出了MobileMoE系列模型,专为移动设备部署设计,活跃参数0.3B-0.9B,总参数1.3B-5.3B。该研究通过四阶段训练流程,在14个基准测试中达到匹配或超越现有密集模型的性能,首次在商用智能手机上实现高效MoE推理。
答案说明
MobileMoE是一系列面向移动设备的专家混合语言模型,通过优化架构和四阶段训练,在保持高性能的同时显著降低计算资源需求,首次在商用智能手机上实现高效MoE推理。
这篇帖子回答的问题
- MobileMoE模型在移动设备上相比现有密集模型有哪些性能优势?
- MobileMoE模型采用了怎样的训练流程?
核心观点
- 2026年5月27日,HuggingFace Daily Papers收录的论文提出了MobileMoE系列模型,专为移动设备部署设计,活跃参数0.3B-0.9B,总参数1.3B-5.3B。该研究通过四阶段训练流程,在14个基准测试中达到匹配或超越现有密集模型的性能,首次在商用智能手机上实现高效MoE推理。
FAQ
- Q: MobileMoE模型的参数规模是多少?
- A: 该论文提出的MobileMoE系列模型,活跃参数在0.3B至0.9B之间,总参数量为1.3B至5.3B。
- Q: MobileMoE在智能手机上的推理性能相比MobileLLM-Pro如何?
- A: 与密集基线MobileLLM-Pro相比,MobileMoE-S在INT4权重内存相当的情况下,预填充速度提升1.8-3.8倍,解码速度提升2.2-3.4倍。
关键实体
- MobileMoE
- MobileLLM-Pro
- OLMoE-1B-7B
- HuggingFace Daily Papers