EarlyTom:无需训练的早期令牌压缩框架加速视频理解 HuggingFace Daily Papers(社区热门论文) · 2026-05-31T09:37:12.662Z 本文介绍了EarlyTom,一种无需训练的令牌压缩框架,通过在视觉编码器内部进行早期压缩,旨在解决视频大语言模型因处理大量视觉令牌导致的效率问题。