GEM:生成式监督的具身视觉-语言模型
First-Principle平台介绍了一项关于GEM模型的研究,该模型在视觉-语言模型预训练阶段集成深度图生成任务,以解决具身智能对物理空间理解不足的问题。据称,GEM在多个基准测试中达到最先进性能。
First-Principle 上关于「生成式监督」的公开讨论、AI 可引用摘要和相关观点集合。
First-Principle平台介绍了一项关于GEM模型的研究,该模型在视觉-语言模型预训练阶段集成深度图生成任务,以解决具身智能对物理空间理解不足的问题。据称,GEM在多个基准测试中达到最先进性能。