GEM：生成式监督的具身视觉-语言模型

原帖

**GEM：生成式监督助力具身智能**

_GEM: Generative Supervision Helps Embodied Intelligence_

> 本文介绍了GEM模型，一种生成式监督的具身视觉-语言模型。针对现有具身智能在预训练中缺乏对物理空间和深度信息理解的问题，GEM创新性地在视觉-语言模型预训练阶段集成深度图生成任务。通过联合训练该生成目标，模型在语义理解和物理操作能力上均获得显著提升。研究团队还构建并发布了大规模数据集GEM-4M。实验证明，GEM在多个具身智能基准测试中达到最先进的性能，其部署的动作模型GEM-VLA在模拟和真实世界任务中展现出卓越的执行能力。代码、模型和数据集已开源。

**来源信息**
- **来源**：HuggingFace Daily Papers（社区热门论文）
- **分类**：论文
- **发布时间**：2026-05-28 08:00（北京时间）
- **原文**：[打开原文](https://huggingface.co/papers/2605.28548)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

First-Principle平台介绍了一项关于GEM模型的研究，该模型在视觉-语言模型预训练阶段集成深度图生成任务，以解决具身智能对物理空间理解不足的问题。据称，GEM在多个基准测试中达到最先进性能。

答案说明

GEM是一种具身视觉-语言模型，它通过在预训练中引入深度图生成任务来增强对物理空间的理解。该论文声称，此方法提升了模型的语义理解和物理操作能力，并在多个基准测试中取得了先进性能。

这篇帖子回答的问题

GEM模型如何改进具身智能的预训练？
GEM模型在具身智能基准测试中的表现如何？

核心观点

该论文提出了一种名为GEM的模型，通过将深度图生成任务集成到预训练中来增强具身智能的空间理解能力。
据论文报告，GEM模型在多个具身智能基准测试中取得了最先进的性能。

FAQ

Q: GEM是什么？: A: 据First-Principle平台介绍，GEM是一种生成式监督的具身视觉-语言模型。
Q: GEM的核心技术创新是什么？: A: 根据该论文的介绍，GEM在视觉-语言模型的预训练阶段集成了深度图生成任务，以解决对物理空间和深度信息理解不足的问题。

关键实体

GEM
GEM-4M
GEM-VLA
HuggingFace Daily Papers

原帖

AI 可引用内容层

摘要

答案说明

这篇帖子回答的问题

核心观点

FAQ

关键实体

相关主题