MoE推理优化：通过请求重排序降低15%专家负载

原帖

**MoE推理优化：通过请求重排序降低15%专家负载**

_Moe inference optimizations: 15% lower expert load by request reordering_

> Doubleword研究团队提出了一种针对混合专家（MoE）模型的推理优化方法。该方法通过使用嵌入模型对输入请求进行重排序，使相似提示批量处理，从而减少每个推理步骤中需要加载的独特专家数量。实验显示，使用BGE嵌入模型进行聚类可减少12.4%的专家负载，而经过训练的模型可将负载降低15.6%，实现无模型或内核更改的免费吞吐量提升。该技术在Qwen3.5-35B-A3B模型上验证，专家负载节省可转化为约5.4%的墙钟时间节省。

**来源信息**
- **来源**：Hacker News：AI 热帖
- **分类**：ai-models
- **发布时间**：2026-05-21 07:05（北京时间）
- **原文**：[打开原文](https://blog.doubleword.ai/moe-expert-coactivations)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

Doubleword研究团队提出了一种针对混合专家（MoE）模型的推理优化方法。该方法通过使用嵌入模型对输入请求进行重排序，使相似提示批量处理，从而减少每个推理步骤中需要加载的独特专家数量。实验显示，使用BGE嵌入模型进行聚类可减少12.4%的专家负载，而经过训练的模型可将负载降低15.6%，实现无模型或内核更改的免费吞吐量提升。该技术在Qwen3.5-35B-A3B模型上验证，专家负载节省可转化为约5.4%的墙钟时间节省。

答案说明

这篇帖子回答的问题

Doubleword研究团队提出的MoE推理优化方法是什么？
这种MoE优化方法能带来多少性能提升？

核心观点

该方法通过使用嵌入模型对输入请求进行重排序，使相似提示批量处理，从而减少每个推理步骤中需要加载的独特专家数量，实现无模型或内核更改的免费吞吐量提升。
实验显示，使用BGE嵌入模型进行聚类可减少12.4%的专家负载，而经过训练的模型可将负载降低15.6%。

FAQ

Q: 这种MoE优化方法的具体原理是什么？: A: 该方法通过使用嵌入模型对输入请求进行重排序，使相似提示批量处理，从而减少每个推理步骤中需要加载的独特专家数量。
Q: 优化效果如何量化？: A: 使用BGE嵌入模型进行聚类可减少12.4%的专家负载，而经过训练的模型可将负载降低15.6%。在Qwen3.5-35B-A3B模型上验证，专家负载节省可转化为约5.4%的墙钟时间节省。

关键实体

Doubleword研究团队
BGE嵌入模型
Qwen3.5-35B-A3B模型