**PhysBrain 1.0:通过人类第一人称视频学习物理常识以增强机器人策略**

_PhysBrain 1.0 Technical Report_

> 本文介绍了PhysBrain 1.0技术报告。该研究提出了一种新方法,旨在弥补仅依赖机器人轨迹数据在构建广泛物理理解方面的不足。核心思路是将大规模人类第一人称视频转换为结构化的物理常识监督信号,再用于训练视觉语言模型。具体流程包括:从视频中提取场景元素、空间动态、动作执行和深度感知关系,将其转化为问答监督数据。训练得到的物理先验知识,通过一种保持能力且对语言敏感的适应设计,进一步迁移到视觉-语言-动作策略中。在多个多模态问答基准(如ERQA、PhysBench)和具身控制基准(如SimplerEnv、LIBERO、RoboCasa)上,PhysBrain 1.0取得了最先进的结果,尤其在SimplerEnv上展现了强大的域外性能。结果表明,从人类交互视频中扩展物理常识,可以有效弥合多模态理解与机器人行动之间的鸿沟。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-18 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.15298)