**Good Token Hunting:视觉几何Transformer的Token选择指南**

_Good Token Hunting: A Hitchhiker's Guide to Token Selection for Visual Geometry Transformers_

> 本文针对视觉几何Transformer在多视图3D重建中因全局注意力导致计算成本随输入序列长度二次增长的问题,提出了一种通用策略:通过两阶段Token选择框架(帧间与帧内选择)限制查询与之交互的键值Token数量。实验表明,该方法在包含500张图像的场景中加速超过85%,同时保持或提升性能,为视觉几何Transformer的未来应用提供了关键支持。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-25 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.23892)