**后训练的混合专家模型可通过自蒸馏跳过一半专家**

_Post-Trained MoE Can Skip Half Experts via Self-Distillation_

> 该论文提出了一种名为ZEDA的低成本框架,用于将已训练完成的静态混合专家模型转换为高效的动态模型。通过在每个MoE层中注入无参数的零输出专家,并通过两阶段自蒸馏进行调整,ZEDA能够使简单输入绕过不必要的专家,从而在推理时大幅降低计算成本。在Qwen3-30B-A3B和GLM-4.7-Flash模型上的测试表明,该方法可以在精度损失极小的情况下,减少超过50%的专家计算量,并实现约1.20倍的端到端推理加速。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-19 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.18643)