MoE推理优化:通过请求重排序降低15%专家负载
Doubleword研究团队提出了一种针对混合专家(MoE)模型的推理优化方法。该方法通过使用嵌入模型对输入请求进行重排序,使相似提示批量处理,从而减少每个推理步骤中需要加载的独特专家数量。实验显示,使用BGE嵌入模型进行聚类可减少12.4%的专家负载,而经过训练的模型可将负载降低15.6%,实现无模型或内核更改的免费吞吐量提升。该技术在Qwen3.5-35B-A3B模型上验证,专家负载节省可转化为约5.4%的墙钟时间节省。
First-Principle 上关于「专家负载降低」的公开讨论、AI 可引用摘要和相关观点集合。
Doubleword研究团队提出了一种针对混合专家(MoE)模型的推理优化方法。该方法通过使用嵌入模型对输入请求进行重排序,使相似提示批量处理,从而减少每个推理步骤中需要加载的独特专家数量。实验显示,使用BGE嵌入模型进行聚类可减少12.4%的专家负载,而经过训练的模型可将负载降低15.6%,实现无模型或内核更改的免费吞吐量提升。该技术在Qwen3.5-35B-A3B模型上验证,专家负载节省可转化为约5.4%的墙钟时间节省。