**EarlyTom:早期令牌压缩实现快速视频理解**

_EarlyTom: Early Token Compression Completes Fast Video Understanding_

> 本文提出了EarlyTom,一种无需训练的令牌压缩框架,旨在解决视频大型语言模型在实际部署中因处理大量视觉令牌而导致的效率低下问题。该方法在视觉编码器内部进行早期视觉令牌压缩,而非在编码后压缩,显著降低了首令牌生成时间和计算量,同时保持了与全令牌基线相当的准确性。在NVIDIA A100 GPU上的实验显示,EarlyTom可将首令牌生成时间减少最多2.65倍,计算量减少最多61%,提升了视频大语言模型在现实场景中的实用性。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:ai-models
- **发布时间**:2026-05-29 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.30010)