EarlyTom:无需训练的早期令牌压缩框架加速视频理解
本文介绍了EarlyTom,一种无需训练的令牌压缩框架,通过在视觉编码器内部进行早期压缩,旨在解决视频大语言模型因处理大量视觉令牌导致的效率问题。
First-Principle 上关于「视频理解」的公开讨论、AI 可引用摘要和相关观点集合。
本文介绍了EarlyTom,一种无需训练的令牌压缩框架,通过在视觉编码器内部进行早期压缩,旨在解决视频大语言模型因处理大量视觉令牌导致的效率问题。
本文介绍了视觉语言模型LLaVA-OneVision-2,其采用创新的codec-stream tokenization技术处理长视频,在多个多模态基准测试中表现优异。
First-Principle于2026年5月22日分享了关于OmniPro基准的论文。该基准针对现有评估方法的不足,包含2700个样本、9个子任务,引入了探测和在线两种评估模式。评估11个模型后发现,音频增益效果因模型而异,性能随时间下降,且非语音音频感知能力最弱。
论文提出VideoSeeker范式,通过视觉提示与智能体推理结合,实现精确时空定位,在实例级视频理解任务中平均提升13.7%,超越GPT-4o和Gemini-2.5-Pro等闭源模型。
2026年5月19日,HuggingFace Daily Papers社区热门论文介绍了GRASP数据集,旨在解决现有多模态语言模型在多人视频中无法准确识别交互参与者的问题。该数据集包含46K视频(749小时)和290K问答对,围绕16类非语言线索构建,并提出了社会基础奖励(SGR)学习信号来提升推理能力。
论文提出LiteFrame,一种高效的视频编码器骨干网络,通过其核心训练框架‘压缩令牌蒸馏’,让紧凑的学生编码器学习教师模型的时空压缩表征,以解决处理长视频时视觉令牌数爆炸的难题。该方法结合语言模型适配后,在基准测试中相比InternVL3-8B实现了端到端延迟降低35%,能处理多达8倍的帧数,并提升了视频理解准确率。
2026年5月15日,HuggingFace Daily Papers社区分享了ViMU基准测试论文。该基准测试旨在系统评估AI模型对视频中幽默、讽刺、社会含义等隐喻性信息的理解能力,突破了当前模型仅能进行字面识别的局限。