**因果视频模型:数据高效的机器人策略学习器**

_Causal Video Models Are Data-Efficient Robot Policy Learners_

> Rhoda AI提出Direct Video-Action模型(DVA),将机器人策略重构为视频生成任务。该模型利用网络规模的视频数据进行训练,仅需约10小时的机器人数据即可学习复杂任务,并具备长上下文视觉记忆和单次学习能力。其核心创新在于通过实时视频预测直接控制机器人,为实现通用机器人提供了可扩展的路径。

**来源信息**
- **来源**:Hacker News:AI 热帖
- **分类**:ai-models
- **发布时间**:2026-05-19 12:29(北京时间)
- **原文**:[打开原文](https://www.rhoda.ai/research/direct-video-action)