AI论文

PhysBrain 1.0：利用人类视频学习物理常识以增强机器人策略

HuggingFace Daily Papers（社区热门论文） · 2026-05-31T09:37:22.972Z

PhysBrain 1.0 技术报告提出，将大规模人类第一人称视频转化为结构化物理常识监督信号，以训练视觉语言模型。该方法旨在弥补仅依赖机器人轨迹数据构建物理理解的不足，通过提取场景元素、空间动态、动作执行和深度感知关系生成问答监督数据。训练得到的物理先验知识被迁移到视觉-语言-动作策略中，在ERQA、PhysBench等问答基准和SimplerEnv、LIBERO、RoboCasa等具身控制基准上取得了最先进的结果。

精选帖子

PhysBrain 1.0：利用人类视频学习物理常识以增强机器人策略

相关作者