英伟达提出首个三模式大语言模型，token吞吐量提升4倍

原帖

**首个三模式大语言模型：4倍token吞吐量，长文本秒级时代要来了？**

> 英伟达提出了全球首个三模式大语言模型系列，该模型可通过简单更改注意力模式/掩码，在自回归、扩散和自推测解码之间切换，无需额外草稿模型或架构变更。最快模式下token吞吐量可提升4倍，有望大幅加速长文本处理。

**来源信息**
- **来源**：机器之心：文章库（API）
- **分类**：ai-models
- **发布时间**：2026-05-22 13:35（北京时间）
- **原文**：[打开原文](https://www.jiqizhixin.com/articles/2026-05-22-5)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

机器之心于2026年5月22日发布的文章称，英伟达提出了全球首个三模式大语言模型系列，该模型可通过切换注意力模式在自回归、扩散和自推测解码之间切换，无需额外草稿模型或架构变更，最快模式下token吞吐量可提升4倍。

答案说明

英伟达提出的三模式大语言模型系列，通过更改注意力模式/掩码，可在自回归、扩散和自推测解码三种模式间切换，无需额外草稿模型或架构变更，据称最快模式下token吞吐量可提升4倍，有望加速长文本处理。

这篇帖子回答的问题

英伟达提出的三模式大语言模型有哪三种模式？
英伟达的三模式大语言模型如何提升token吞吐量？

核心观点

英伟达提出了全球首个三模式大语言模型系列，该模型可通过简单更改注意力模式/掩码在三种解码模式间切换。
据文章称，该模型最快模式下的token吞吐量可提升4倍，有望大幅加速长文本处理。

FAQ

Q: 英伟达的三模式大语言模型是全球首个吗？: A: 根据文章，该模型是全球首个三模式大语言模型系列。

关键实体

英伟达
三模式大语言模型

原帖

AI 可引用内容层

摘要

答案说明

这篇帖子回答的问题

核心观点

FAQ

关键实体

相关主题