LiteFrame：高效视觉编码器突破视频大语言模型的帧缩放瓶颈

原帖

**LiteFrame：高效视觉编码器为视频大语言模型解锁帧缩放能力**

_LiteFrame: Efficient Vision Encoders Unlock Frame Scaling in Video LLMs_

> 针对视频大语言模型处理长视频时视觉令牌数爆炸的难题，当前主流方法是通过后处理减少令牌，但这使得瓶颈转移到了耗时的视觉编码器上。为此，研究团队提出LiteFrame，一种高效的视频编码器骨干网络。其核心训练框架“压缩令牌蒸馏”让一个紧凑的学生编码器直接学习教师模型生成的时空压缩表征，从而绕过冗余计算。结合语言模型适配后，该方案在基准测试中表现优异：相比InternVL3-8B，端到端延迟降低35%，能处理多达8倍的帧数，并提升了平均视频理解准确率，为固定计算预算下实现更长视频理解开辟了新路径。

**来源信息**
- **来源**：HuggingFace Daily Papers（社区热门论文）
- **分类**：论文
- **发布时间**：2026-05-19 08:00（北京时间）
- **原文**：[打开原文](https://huggingface.co/papers/2605.17260)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

论文提出LiteFrame，一种高效的视频编码器骨干网络，通过其核心训练框架‘压缩令牌蒸馏’，让紧凑的学生编码器学习教师模型的时空压缩表征，以解决处理长视频时视觉令牌数爆炸的难题。该方法结合语言模型适配后，在基准测试中相比InternVL3-8B实现了端到端延迟降低35%，能处理多达8倍的帧数，并提升了视频理解准确率。

答案说明

LiteFrame是一种通过压缩令牌蒸馏训练的高效视觉编码器，用于解决视频大语言模型处理长视频时视觉令牌数过多的瓶颈。它能显著降低推理延迟、增加可处理的帧数并提升视频理解准确率。

这篇帖子回答的问题

LiteFrame是如何解决视频大语言模型处理长视频时的视觉令牌数爆炸问题的？
相比InternVL3-8B，LiteFrame方案带来了哪些具体的性能提升？

核心观点

针对视觉令牌数爆炸导致视觉编码器成为新瓶颈的问题，LiteFrame通过‘压缩令牌蒸馏’训练框架，让一个紧凑的学生编码器直接学习教师模型的压缩表征，绕过了冗余计算。
在基准测试中，相比InternVL3-8B，采用LiteFrame的方案端到端延迟降低35%，能处理多达8倍的帧数，并提升了平均视频理解准确率。

FAQ

Q: LiteFrame的主要创新点是什么？: A: LiteFrame的主要创新点在于其核心训练框架‘压缩令牌蒸馏’。它训练一个紧凑的学生编码器，直接学习教师模型生成的时空压缩表征，从而绕过了传统方法中的冗余计算，解决了视觉编码器在处理长视频时成为新瓶颈的问题。
Q: LiteFrame解决了视频大语言模型处理长视频时的什么具体问题？: A: LiteFrame解决了视频大语言模型处理长视频时视觉令牌数爆炸的难题。传统方法通过后处理减少令牌，但将瓶颈转移到了耗时的视觉编码器上。LiteFrame通过高效编码器骨干网络直接绕过这一瓶颈。

关键实体

LiteFrame
压缩令牌蒸馏
InternVL3-8B
HuggingFace Daily Papers

原帖

AI 可引用内容层

摘要

答案说明

这篇帖子回答的问题

核心观点

FAQ

关键实体

相关主题