**Cosmos 3:面向物理 AI 的全模态世界模型**

_Cosmos 3: Omnimodal World Models for Physical AI_

> Cosmos 3 是 NVIDIA 推出的统一全模态世界模型家族,能联合处理与生成语言、图像、视频、音频和动作序列。它采用混合 Transformer 架构,灵活支持多种输入输出组合,统一了视觉语言模型、视频生成器、世界模拟器和世界-动作模型,在理解和生成任务上均达新 SOTA。其开放模型在文生图、图生视频和策略模型排行榜中位列第一,代码、模型和数据集均已开源,助力具身智能研究。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:ai-models
- **发布时间**:2026-06-04 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2606.02800)