CVPR 2026 Oral: 清华与阿里提出ViT³新架构，旨在突破Transformer序列建模复杂度瓶颈

原帖

**CVPR 2026 Oral | 清华+阿里发布ViT³：解锁「视觉TTT」新架构，突破Transformer复杂度瓶颈**

> 清华大学和阿里巴巴的研究团队提出了名为ViT³（视觉测试时训练）的新架构，旨在解决传统Transformer模型在处理长序列时计算复杂度呈平方增长的瓶颈。该研究有望为计算机视觉和大语言模型等领域提供更高效的序列建模方案。

**来源信息**
- **来源**：机器之心：文章库（API）
- **分类**：论文
- **发布时间**：2026-05-17 21:47（北京时间）
- **原文**：[打开原文](https://www.jiqizhixin.com/articles/2026-05-17-10)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

根据2026年5月17日机器之心的文章，清华大学和阿里巴巴的研究团队在CVPR 2026 Oral中提出了ViT³（视觉测试时训练）新架构。该架构旨在解决传统Transformer模型在处理长序列时计算复杂度呈平方增长的问题，有望为计算机视觉和大语言模型提供更高效的序列建模方案。

ViT³是清华大学和阿里巴巴提出的“视觉测试时训练”新架构，其目标是突破传统Transformer模型在处理长序列时计算复杂度呈平方增长的瓶颈，为计算机视觉和大语言模型提供更高效的序列建模方案。

原帖