**LiteFrame:高效视觉编码器为视频大语言模型解锁帧缩放能力**

_LiteFrame: Efficient Vision Encoders Unlock Frame Scaling in Video LLMs_

> 针对视频大语言模型处理长视频时视觉令牌数爆炸的难题,当前主流方法是通过后处理减少令牌,但这使得瓶颈转移到了耗时的视觉编码器上。为此,研究团队提出LiteFrame,一种高效的视频编码器骨干网络。其核心训练框架“压缩令牌蒸馏”让一个紧凑的学生编码器直接学习教师模型生成的时空压缩表征,从而绕过冗余计算。结合语言模型适配后,该方案在基准测试中表现优异:相比InternVL3-8B,端到端延迟降低35%,能处理多达8倍的帧数,并提升了平均视频理解准确率,为固定计算预算下实现更长视频理解开辟了新路径。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-19 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.17260)