**LLaVA-OneVision-2:迈向下一代感知智能**

_LLaVA-OneVision-2: Towards Next-Generation Perceptual Intelligence_

> LLaVA-OneVision-2是LLaVA-OneVision系列中最强大的视觉语言模型,通过其创新的codec-stream tokenization技术,将压缩视频作为连续的比特流处理,实现了对长视频内容的稳定压缩和高效处理。该模型在视频理解、时间定位、空间定位等多个多模态基准测试中表现优异,特别是在新推出的JumpScore基准测试中大幅超越现有模型。该研究还建立了基于大规模开放监督的数据和训练框架。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:ai-models
- **发布时间**:2026-05-27 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.25979)