**TIDE:用于无损MoE扩散大语言模型推理的高效I/O感知专家卸载系统**

_TIDE: Efficient and Lossless MoE Diffusion LLM Inference with I/O-aware Expert Offload_

> 本文提出了TIDE,一种面向混合专家(MoE)架构的扩散大语言模型(dLLM)的高效推理系统。针对dLLM在资源受限设备上部署的I/O开销和计算瓶颈问题,TIDE利用块内扩散过程中专家激活的时间稳定性,引入基于间隔的专家刷新策略,以I/O感知方式动态更新专家放置。通过将推理调度形式化为数学规划问题,求解最小化I/O流量和CPU计算的最优间隔,实现了无损加速。在单GPU-CPU系统上,TIDE在LLaDA2.0-mini和flash模型上分别实现了高达1.4倍和1.5倍的吞吐量提升,且无需重新训练模型。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-21 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.20179)