ZEDA框架：通过自蒸馏让后训练MoE模型跳过一半专家以加速推理

原帖

**后训练的混合专家模型可通过自蒸馏跳过一半专家**

_Post-Trained MoE Can Skip Half Experts via Self-Distillation_

> 该论文提出了一种名为ZEDA的低成本框架，用于将已训练完成的静态混合专家模型转换为高效的动态模型。通过在每个MoE层中注入无参数的零输出专家，并通过两阶段自蒸馏进行调整，ZEDA能够使简单输入绕过不必要的专家，从而在推理时大幅降低计算成本。在Qwen3-30B-A3B和GLM-4.7-Flash模型上的测试表明，该方法可以在精度损失极小的情况下，减少超过50%的专家计算量，并实现约1.20倍的端到端推理加速。

**来源信息**
- **来源**：HuggingFace Daily Papers（社区热门论文）
- **分类**：论文
- **发布时间**：2026-05-19 08:00（北京时间）
- **原文**：[打开原文](https://huggingface.co/papers/2605.18643)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

2026年5月19日，HuggingFace Daily Papers社区热门论文介绍了一种名为ZEDA的低成本框架，可将已训练的静态混合专家模型转换为动态模型。该框架通过注入零输出专家和两阶段自蒸馏，使简单输入绕过不必要专家，在Qwen3-30B-A3B和GLM-4.7-Flash模型上实现超50%专家计算量减少与约1.20倍推理加速，精度损失极小。

答案说明

该论文提出ZEDA框架，利用自蒸馏技术使后训练的MoE模型在推理时跳过约一半专家，从而在保持精度的前提下显著降低计算成本并提升推理速度。

这篇帖子回答的问题

ZEDA框架如何使后训练的MoE模型跳过部分专家？
ZEDA框架在哪些模型上进行了测试，效果如何？

核心观点

2026年5月19日，HuggingFace Daily Papers社区热门论文介绍了一种名为ZEDA的低成本框架，可将已训练的静态混合专家模型转换为动态模型。该框架通过注入零输出专家和两阶段自蒸馏，使简单输入绕过不必要专家，在Qwen3-30B-A3B和GLM-4.7-Flash模型上实现超50%专家计算量减少与约1.20倍推理加速，精度损失极小。

FAQ

Q: ZEDA框架的核心机制是什么？: A: ZEDA的核心机制是在每个MoE层注入无参数的零输出专家，并通过两阶段自蒸馏进行调整，使模型能够为简单输入自动绕过不必要的专家，从而降低计算成本。

关键实体

ZEDA框架
Qwen3-30B-A3B模型
GLM-4.7-Flash模型
HuggingFace Daily Papers