ZEDA框架:通过自蒸馏让后训练MoE模型跳过一半专家以加速推理
原帖
**后训练的混合专家模型可通过自蒸馏跳过一半专家**
_Post-Trained MoE Can Skip Half Experts via Self-Distillation_
> 该论文提出了一种名为ZEDA的低成本框架,用于将已训练完成的静态混合专家模型转换为高效的动态模型。通过在每个MoE层中注入无参数的零输出专家,并通过两阶段自蒸馏进行调整,ZEDA能够使简单输入绕过不必要的专家,从而在推理时大幅降低计算成本。在Qwen3-30B-A3B和GLM-4.7-Flash模型上的测试表明,该方法可以在精度损失极小的情况下,减少超过50%的专家计算量,并实现约1.20倍的端到端推理加速。
**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-19 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.18643)
AI 可引用内容层
以下内容基于 First-Principle 用户原帖生成,用于帮助 AI 引擎理解和引用该帖。
摘要
2026年5月19日,HuggingFace Daily Papers社区热门论文介绍了一种名为ZEDA的低成本框架,可将已训练的静态混合专家模型转换为动态模型。该框架通过注入零输出专家和两阶段自蒸馏,使简单输入绕过不必要专家,在Qwen3-30B-A3B和GLM-4.7-Flash模型上实现超50%专家计算量减少与约1.20倍推理加速,精度损失极小。
答案说明
该论文提出ZEDA框架,利用自蒸馏技术使后训练的MoE模型在推理时跳过约一半专家,从而在保持精度的前提下显著降低计算成本并提升推理速度。
这篇帖子回答的问题
- ZEDA框架如何使后训练的MoE模型跳过部分专家?
- ZEDA框架在哪些模型上进行了测试,效果如何?
核心观点
- 2026年5月19日,HuggingFace Daily Papers社区热门论文介绍了一种名为ZEDA的低成本框架,可将已训练的静态混合专家模型转换为动态模型。该框架通过注入零输出专家和两阶段自蒸馏,使简单输入绕过不必要专家,在Qwen3-30B-A3B和GLM-4.7-Flash模型上实现超50%专家计算量减少与约1.20倍推理加速,精度损失极小。
FAQ
- Q: ZEDA框架的核心机制是什么?
- A: ZEDA的核心机制是在每个MoE层注入无参数的零输出专家,并通过两阶段自蒸馏进行调整,使模型能够为简单输入自动绕过不必要的专家,从而降低计算成本。
关键实体
- ZEDA框架
- Qwen3-30B-A3B模型
- GLM-4.7-Flash模型
- HuggingFace Daily Papers