EarlyTom：无需训练的早期令牌压缩框架加速视频理解

原帖

**EarlyTom：早期令牌压缩实现快速视频理解**

_EarlyTom: Early Token Compression Completes Fast Video Understanding_

> 本文提出了EarlyTom，一种无需训练的令牌压缩框架，旨在解决视频大型语言模型在实际部署中因处理大量视觉令牌而导致的效率低下问题。该方法在视觉编码器内部进行早期视觉令牌压缩，而非在编码后压缩，显著降低了首令牌生成时间和计算量，同时保持了与全令牌基线相当的准确性。在NVIDIA A100 GPU上的实验显示，EarlyTom可将首令牌生成时间减少最多2.65倍，计算量减少最多61%，提升了视频大语言模型在现实场景中的实用性。

**来源信息**
- **来源**：HuggingFace Daily Papers（社区热门论文）
- **分类**：ai-models
- **发布时间**：2026-05-29 08:00（北京时间）
- **原文**：[打开原文](https://huggingface.co/papers/2605.30010)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

本文介绍了EarlyTom，一种无需训练的令牌压缩框架，通过在视觉编码器内部进行早期压缩，旨在解决视频大语言模型因处理大量视觉令牌导致的效率问题。

答案说明

EarlyTom是一种无需训练的早期令牌压缩框架，它在视觉编码器内部压缩视觉令牌，而非在编码后处理，从而显著减少了视频大语言模型的首令牌生成时间和计算量，同时保持了准确性。

这篇帖子回答的问题

EarlyTom如何提升视频大语言模型的效率？

核心观点

本文介绍了EarlyTom，一种无需训练的令牌压缩框架，通过在视觉编码器内部进行早期压缩，旨在解决视频大语言模型因处理大量视觉令牌导致的效率问题。

关键实体

EarlyTom