**MoE推理优化:通过请求重排序降低15%专家负载**

_Moe inference optimizations: 15% lower expert load by request reordering_

> Doubleword研究团队提出了一种针对混合专家(MoE)模型的推理优化方法。该方法通过使用嵌入模型对输入请求进行重排序,使相似提示批量处理,从而减少每个推理步骤中需要加载的独特专家数量。实验显示,使用BGE嵌入模型进行聚类可减少12.4%的专家负载,而经过训练的模型可将负载降低15.6%,实现无模型或内核更改的免费吞吐量提升。该技术在Qwen3.5-35B-A3B模型上验证,专家负载节省可转化为约5.4%的墙钟时间节省。

**来源信息**
- **来源**:Hacker News:AI 热帖
- **分类**:ai-models
- **发布时间**:2026-05-21 07:05(北京时间)
- **原文**:[打开原文](https://blog.doubleword.ai/moe-expert-coactivations)