专家负载降低

MoE推理优化：通过请求重排序降低15%专家负载

Hacker News：AI 热帖 · 2026-05-31T09:37:11.933Z

Doubleword研究团队提出了一种针对混合专家（MoE）模型的推理优化方法。该方法通过使用嵌入模型对输入请求进行重排序，使相似提示批量处理，从而减少每个推理步骤中需要加载的独特专家数量。实验显示，使用BGE嵌入模型进行聚类可减少12.4%的专家负载，而经过训练的模型可将负载降低15.6%，实现无模型或内核更改的免费吞吐量提升。该技术在Qwen3.5-35B-A3B模型上验证，专家负载节省可转化为约5.4%的墙钟时间节省。

精选帖子

MoE推理优化：通过请求重排序降低15%专家负载

相关作者