**首个三模式大语言模型:4倍token吞吐量,长文本秒级时代要来了?**

> 英伟达提出了全球首个三模式大语言模型系列,该模型可通过简单更改注意力模式/掩码,在自回归、扩散和自推测解码之间切换,无需额外草稿模型或架构变更。最快模式下token吞吐量可提升4倍,有望大幅加速长文本处理。

**来源信息**
- **来源**:机器之心:文章库(API)
- **分类**:ai-models
- **发布时间**:2026-05-22 13:35(北京时间)
- **原文**:[打开原文](https://www.jiqizhixin.com/articles/2026-05-22-5)