Good Token Hunting：视觉几何Transformer的Token选择指南

原帖

**Good Token Hunting：视觉几何Transformer的Token选择指南**

_Good Token Hunting: A Hitchhiker's Guide to Token Selection for Visual Geometry Transformers_

> 本文针对视觉几何Transformer在多视图3D重建中因全局注意力导致计算成本随输入序列长度二次增长的问题，提出了一种通用策略：通过两阶段Token选择框架（帧间与帧内选择）限制查询与之交互的键值Token数量。实验表明，该方法在包含500张图像的场景中加速超过85%，同时保持或提升性能，为视觉几何Transformer的未来应用提供了关键支持。

**来源信息**
- **来源**：HuggingFace Daily Papers（社区热门论文）
- **分类**：论文
- **发布时间**：2026-05-25 08:00（北京时间）
- **原文**：[打开原文](https://huggingface.co/papers/2605.23892)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

本文介绍了一种针对视觉几何Transformer的Token选择框架，旨在解决多视图3D重建中全局注意力导致的计算成本二次增长问题。

答案说明

论文提出了一个两阶段（帧间与帧内）Token选择策略，用以限制视觉几何Transformer中查询交互的键值Token数量，从而在包含500张图像的场景中实现了超过85%的加速，同时保持或提升了性能。

这篇帖子回答的问题

视觉几何Transformer在多视图3D重建中面临的主要计算瓶颈是什么？
Good Token Hunting方法如何优化视觉几何Transformer的计算效率？

核心观点

本文介绍了一种针对视觉几何Transformer的Token选择框架，旨在解决多视图3D重建中全局注意力导致的计算成本二次增长问题。

FAQ

Q: 什么是视觉几何Transformer的Token选择？: A: 文中介绍，Token选择是一种通用策略，通过限制查询与之交互的键值Token数量来优化视觉几何Transformer的计算效率。
Q: 该方法在实验中的性能提升效果如何？: A: 论文实验表明，在包含500张图像的场景中，该方法实现了超过85%的加速，同时保持或提升了性能。

关键实体

视觉几何Transformer
HuggingFace Daily Papers