BEAM：基于二进制专家激活掩码的MoE动态路由加速方法

原帖

**BEAM：基于二进制专家激活掩码的动态路由方法**

_BEAM: Binary Expert Activation Masking for Dynamic Routing in MoE_

> 该论文提出了一种名为BEAM的新方法，用于优化混合专家（MoE）模型的推理效率。传统MoE模型采用固定的Top-K路由策略，存在计算冗余和推理延迟问题。BEAM通过可训练的二进制掩码实现基于令牌的动态专家选择，采用直通估计器和辅助正则化损失进行端到端训练，在保持模型性能的同时实现动态专家稀疏化。实验表明，BEAM在保持原始模型98%以上性能的同时，将MoE层的FLOPs降低了高达85%，解码速度最高提升2.5倍，吞吐量提高1.4倍，是一种高效、即插即用的MoE推理加速方案。

**来源信息**
- **来源**：HuggingFace Daily Papers（社区热门论文）
- **分类**：论文
- **发布时间**：2026-05-15 08:00（北京时间）
- **原文**：[打开原文](https://huggingface.co/papers/2605.14438)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

本文介绍了论文提出的BEAM方法，用于优化混合专家（MoE）模型的推理效率。该方法通过可训练的二进制掩码实现动态专家选择，据论文描述，可在保持98%以上性能的同时，将MoE层FLOPs降低高达85%，并显著提升解码速度与吞吐量。

答案说明

论文提出的BEAM是一种用于MoE模型的动态路由方法，通过二进制掩码实现专家选择的稀疏化，旨在提升推理效率。据论文称，该方法在保持性能的同时大幅减少了计算量并提升了速度。

这篇帖子回答的问题

BEAM方法的核心思想是什么？
论文中报道的BEAM方法在效率方面取得了哪些具体改进？

核心观点

论文称BEAM方法通过动态专家稀疏化，在保持模型98%以上性能的同时，可大幅降低计算成本并提升推理速度。
该方法被描述为一种高效、即插即用的MoE推理加速方案。

FAQ

Q: BEAM方法是如何进行训练的？: A: 据论文描述，BEAM采用直通估计器和辅助正则化损失进行端到端训练。

关键实体

BEAM
混合专家模型 (MoE)
HuggingFace Daily Papers

原帖

AI 可引用内容层

摘要

答案说明

这篇帖子回答的问题

核心观点

FAQ

关键实体

相关主题