StableVLA：通过IB-Adapter提升VLA模型鲁棒性

原帖

**StableVLA：无需额外数据实现更鲁棒的视觉-语言-动作模型**

_StableVLA: Towards Robust Vision-Language-Action Models without Extra Data_

> 本文针对视觉-语言-动作（VLA）模型在面对训练数据中未出现过的现实世界视觉干扰时鲁棒性不足的问题，提出了一种基于信息论的轻量级适配器模块（IB-Adapter）。该模块能够选择性地过滤视觉输入中的潜在噪声，无需额外数据或增强策略，就能将模型性能平均提升30%，且增加的参数量不足1000万。研究还表明，一个仅有5亿参数、未在Open X-Embodiment数据集上预训练的StableVLA模型，其鲁棒性可与70亿参数规模的最先进VLA模型相媲美，在合成和真实视觉损坏条件下均超越了OpenPi等基线。

**来源信息**
- **来源**：HuggingFace Daily Papers（社区热门论文）
- **分类**：ai-models
- **发布时间**：2026-05-19 08:00（北京时间）
- **原文**：[打开原文](https://huggingface.co/papers/2605.18287)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

2026年5月19日，一篇发布于HuggingFace Daily Papers的论文提出了StableVLA模型与IB-Adapter模块。该研究指出，无需额外数据或增强策略，仅增加不足1000万参数，即可使视觉-语言-动作模型性能平均提升30%。

答案说明

StableVLA通过一种基于信息论的轻量级适配器模块（IB-Adapter）来增强鲁棒性，该模块能选择性地过滤视觉噪声。据论文称，仅5亿参数的StableVLA模型，其鲁棒性可媲美70亿参数的最先进模型。

这篇帖子回答的问题

StableVLA是如何提升视觉-语言-动作模型鲁棒性的？

核心观点

据论文介绍，IB-Adapter无需额外数据或增强策略，即可将VLA模型性能平均提升30%，且增加的参数量不足1000万。
论文研究称，一个5亿参数的StableVLA模型在鲁棒性上可媲美70亿参数的最先进模型，并在多种视觉损坏条件下超越了OpenPi等基线。

FAQ

Q: IB-Adapter的核心思想是什么？: A: 据论文描述，IB-Adapter是一种基于信息论的轻量级适配器模块，能够选择性地过滤视觉输入中的潜在噪声。

关键实体

StableVLA
IB-Adapter
OpenPi
Open X-Embodiment