TIDE：面向MoE扩散大语言模型的I/O感知专家卸载推理系统

原帖

**TIDE：用于无损MoE扩散大语言模型推理的高效I/O感知专家卸载系统**

_TIDE: Efficient and Lossless MoE Diffusion LLM Inference with I/O-aware Expert Offload_

> 本文提出了TIDE，一种面向混合专家（MoE）架构的扩散大语言模型（dLLM）的高效推理系统。针对dLLM在资源受限设备上部署的I/O开销和计算瓶颈问题，TIDE利用块内扩散过程中专家激活的时间稳定性，引入基于间隔的专家刷新策略，以I/O感知方式动态更新专家放置。通过将推理调度形式化为数学规划问题，求解最小化I/O流量和CPU计算的最优间隔，实现了无损加速。在单GPU-CPU系统上，TIDE在LLaDA2.0-mini和flash模型上分别实现了高达1.4倍和1.5倍的吞吐量提升，且无需重新训练模型。

**来源信息**
- **来源**：HuggingFace Daily Papers（社区热门论文）
- **分类**：论文
- **发布时间**：2026-05-21 08:00（北京时间）
- **原文**：[打开原文](https://huggingface.co/papers/2605.20179)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

本文介绍了TIDE系统，该系统针对混合专家（MoE）架构的扩散大语言模型（dLLM）在资源受限设备上的部署挑战，通过I/O感知的专家卸载策略实现高效无损推理。

答案说明

TIDE是一种针对MoE扩散大语言模型的高效推理系统，它通过基于间隔的专家刷新策略和I/O感知调度，在单GPU-CPU系统上实现了无损吞吐量提升（LLaDA2.0-mini达1.4倍，flash达1.5倍），且无需重新训练模型。

这篇帖子回答的问题

TIDE系统如何解决MoE扩散大语言模型在资源受限设备上的部署问题？
TIDE系统在吞吐量提升方面取得了什么具体效果？

核心观点

TIDE系统利用块内扩散过程中专家激活的时间稳定性，引入基于间隔的专家刷新策略，以I/O感知方式动态更新专家放置。
在单GPU-CPU系统上，TIDE在LLaDA2.0-mini和flash模型上分别实现了高达1.4倍和1.5倍的吞吐量提升，且无需重新训练模型。

FAQ

Q: TIDE系统的核心思想是什么？: A: TIDE的核心思想是利用块内扩散过程中专家激活的时间稳定性，通过基于间隔的专家刷新策略和I/O感知调度，实现MoE扩散大语言模型在资源受限设备上的高效无损推理。
Q: TIDE系统在性能提升方面有何具体成果？: A: 根据帖子描述，在单GPU-CPU系统上，TIDE在LLaDA2.0-mini和flash模型上分别实现了高达1.4倍和1.5倍的吞吐量提升，且无需重新训练模型。

关键实体

TIDE
MoE扩散大语言模型
LLaDA2.0-mini
flash模型