**GEM:生成式监督助力具身智能**

_GEM: Generative Supervision Helps Embodied Intelligence_

> 本文介绍了GEM模型,一种生成式监督的具身视觉-语言模型。针对现有具身智能在预训练中缺乏对物理空间和深度信息理解的问题,GEM创新性地在视觉-语言模型预训练阶段集成深度图生成任务。通过联合训练该生成目标,模型在语义理解和物理操作能力上均获得显著提升。研究团队还构建并发布了大规模数据集GEM-4M。实验证明,GEM在多个具身智能基准测试中达到最先进的性能,其部署的动作模型GEM-VLA在模拟和真实世界任务中展现出卓越的执行能力。代码、模型和数据集已开源。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-28 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.28548)