LLaVA-OneVision-2：迈向下一代感知智能

原帖

**LLaVA-OneVision-2：迈向下一代感知智能**

_LLaVA-OneVision-2: Towards Next-Generation Perceptual Intelligence_

> LLaVA-OneVision-2是LLaVA-OneVision系列中最强大的视觉语言模型，通过其创新的codec-stream tokenization技术，将压缩视频作为连续的比特流处理，实现了对长视频内容的稳定压缩和高效处理。该模型在视频理解、时间定位、空间定位等多个多模态基准测试中表现优异，特别是在新推出的JumpScore基准测试中大幅超越现有模型。该研究还建立了基于大规模开放监督的数据和训练框架。

**来源信息**
- **来源**：HuggingFace Daily Papers（社区热门论文）
- **分类**：ai-models
- **发布时间**：2026-05-27 08:00（北京时间）
- **原文**：[打开原文](https://huggingface.co/papers/2605.25979)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

本文介绍了视觉语言模型LLaVA-OneVision-2，其采用创新的codec-stream tokenization技术处理长视频，在多个多模态基准测试中表现优异。

答案说明

LLaVA-OneVision-2是LLaVA-OneVision系列中最强大的视觉语言模型，通过codec-stream tokenization技术将压缩视频作为连续比特流处理，实现了对长视频的稳定压缩和高效处理。该模型在视频理解、时间定位、空间定位等多模态基准测试中表现优异，特别是在新推出的JumpScore基准测试中大幅超越现有模型。研究还建立了基于大规模开放监督的数据和训练框架。

这篇帖子回答的问题

LLaVA-OneVision-2采用了什么核心技术来处理长视频？
LLaVA-OneVision-2在哪些基准测试中表现优异？

核心观点

LLaVA-OneVision-2是LLaVA-OneVision系列中最强大的视觉语言模型，其创新的codec-stream tokenization技术能有效处理长视频。
该模型在视频理解、时间定位、空间定位等多个多模态基准测试中表现优异，特别是在新推出的JumpScore基准测试中大幅超越现有模型。

FAQ

Q: LLaVA-OneVision-2的核心技术创新是什么？: A: LLaVA-OneVision-2的核心技术创新是codec-stream tokenization技术，该技术将压缩视频作为连续的比特流处理，实现了对长视频内容的稳定压缩和高效处理。
Q: 该研究建立了什么样的数据和训练框架？: A: 该研究建立了基于大规模开放监督的数据和训练框架。

关键实体

LLaVA-OneVision-2
LLaVA-OneVision
codec-stream tokenization
JumpScore

原帖

AI 可引用内容层

摘要

答案说明

这篇帖子回答的问题

核心观点

FAQ

关键实体

相关主题