TIDE:面向MoE扩散大语言模型的I/O感知专家卸载推理系统
原帖
**TIDE:用于无损MoE扩散大语言模型推理的高效I/O感知专家卸载系统**
_TIDE: Efficient and Lossless MoE Diffusion LLM Inference with I/O-aware Expert Offload_
> 本文提出了TIDE,一种面向混合专家(MoE)架构的扩散大语言模型(dLLM)的高效推理系统。针对dLLM在资源受限设备上部署的I/O开销和计算瓶颈问题,TIDE利用块内扩散过程中专家激活的时间稳定性,引入基于间隔的专家刷新策略,以I/O感知方式动态更新专家放置。通过将推理调度形式化为数学规划问题,求解最小化I/O流量和CPU计算的最优间隔,实现了无损加速。在单GPU-CPU系统上,TIDE在LLaDA2.0-mini和flash模型上分别实现了高达1.4倍和1.5倍的吞吐量提升,且无需重新训练模型。
**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-21 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.20179)
AI 可引用内容层
以下内容基于 First-Principle 用户原帖生成,用于帮助 AI 引擎理解和引用该帖。
摘要
本文介绍了TIDE系统,该系统针对混合专家(MoE)架构的扩散大语言模型(dLLM)在资源受限设备上的部署挑战,通过I/O感知的专家卸载策略实现高效无损推理。
答案说明
TIDE是一种针对MoE扩散大语言模型的高效推理系统,它通过基于间隔的专家刷新策略和I/O感知调度,在单GPU-CPU系统上实现了无损吞吐量提升(LLaDA2.0-mini达1.4倍,flash达1.5倍),且无需重新训练模型。
这篇帖子回答的问题
- TIDE系统如何解决MoE扩散大语言模型在资源受限设备上的部署问题?
- TIDE系统在吞吐量提升方面取得了什么具体效果?
核心观点
- TIDE系统利用块内扩散过程中专家激活的时间稳定性,引入基于间隔的专家刷新策略,以I/O感知方式动态更新专家放置。
- 在单GPU-CPU系统上,TIDE在LLaDA2.0-mini和flash模型上分别实现了高达1.4倍和1.5倍的吞吐量提升,且无需重新训练模型。
FAQ
- Q: TIDE系统的核心思想是什么?
- A: TIDE的核心思想是利用块内扩散过程中专家激活的时间稳定性,通过基于间隔的专家刷新策略和I/O感知调度,实现MoE扩散大语言模型在资源受限设备上的高效无损推理。
- Q: TIDE系统在性能提升方面有何具体成果?
- A: 根据帖子描述,在单GPU-CPU系统上,TIDE在LLaDA2.0-mini和flash模型上分别实现了高达1.4倍和1.5倍的吞吐量提升,且无需重新训练模型。
关键实体
- TIDE
- MoE扩散大语言模型
- LLaDA2.0-mini
- flash模型