**BEAM:基于二进制专家激活掩码的动态路由方法**

_BEAM: Binary Expert Activation Masking for Dynamic Routing in MoE_

> 该论文提出了一种名为BEAM的新方法,用于优化混合专家(MoE)模型的推理效率。传统MoE模型采用固定的Top-K路由策略,存在计算冗余和推理延迟问题。BEAM通过可训练的二进制掩码实现基于令牌的动态专家选择,采用直通估计器和辅助正则化损失进行端到端训练,在保持模型性能的同时实现动态专家稀疏化。实验表明,BEAM在保持原始模型98%以上性能的同时,将MoE层的FLOPs降低了高达85%,解码速度最高提升2.5倍,吞吐量提高1.4倍,是一种高效、即插即用的MoE推理加速方案。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-15 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.14438)