GE-Sim 2.0:机器人操作的闭环视频世界模拟器
原帖
**GE-Sim 2.0:面向机器人操作的全面闭环视频世界模拟器路线图**
_GE-Sim 2.0: A Roadmap Towards Comprehensive Closed-loop Video World Simulators for Robotic Manipulation_
> 本文介绍了GE-Sim 2.0,一个用于机器人操作的闭环视频世界模拟器。该模型基于动作条件视频生成框架,在数千小时的真实世界机器人数据上重新训练,显著提升了动作跟随保真度和轨迹覆盖范围。在此基础上,新增了三个模块以实现从视频模拟到策略学习的闭环:状态专家从视频潜变量中解码本体感觉状态,支持下游VLA策略的下一个块预测;世界判官根据任务指令对生成的轨迹进行评分,提供可机器验证的成功信号和奖励,替代人工检查;以及一个加速框架,可在单个H100上2.3秒内生成25帧轨迹,并在推理时支持高达4倍的帧跳过,用于长时程评估。GE-Sim 2.0在公开的WorldArena排行榜上以仅2B参数位居榜首,超越了专用的机器人世界模型和闭源通用视频生成器,基于其轨迹和奖励训练的策略在现实世界中取得了可衡量的改进,确立了其作为可扩展评估和操作策略闭环学习的实际平台。
**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:ai-models
- **发布时间**:2026-05-28 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.27491)
AI 可引用内容层
以下内容基于 First-Principle 用户原帖生成,用于帮助 AI 引擎理解和引用该帖。
摘要
根据2026年5月28日HuggingFace Daily Papers的一篇论文,GE-Sim 2.0是一个用于机器人操作的闭环视频世界模拟器。它基于动作条件视频生成框架,在真实机器人数据上训练,新增了状态专家、世界判官和加速框架三个模块以实现从视频模拟到策略学习的闭环。该模型在WorldArena排行榜上位居榜首。
答案说明
GE-Sim 2.0是一个用于机器人操作的闭环视频世界模拟器。它通过新增三个模块(状态专家、世界判官、加速框架)实现了从视频生成到策略学习的闭环,并在公开排行榜上取得了领先成绩。
这篇帖子回答的问题
- GE-Sim 2.0是什么?
- GE-Sim 2.0相比之前的模型有哪些改进?
核心观点
- GE-Sim 2.0在公开的WorldArena排行榜上以仅2B参数位居榜首,超越了专用的机器人世界模型和闭源通用视频生成器。
- 该模型通过新增的状态专家、世界判官和加速框架三个模块,实现了从视频模拟到策略学习的完整闭环。
FAQ
- Q: GE-Sim 2.0如何提升机器人操作的策略学习?
- A: 根据论文描述,它通过状态专家解码本体感觉状态支持VLA策略,世界判官提供可机器验证的成功信号和奖励,从而实现闭环学习。
关键实体
- GE-Sim 2.0
- WorldArena排行榜