**StableVLA:无需额外数据实现更鲁棒的视觉-语言-动作模型**

_StableVLA: Towards Robust Vision-Language-Action Models without Extra Data_

> 本文针对视觉-语言-动作(VLA)模型在面对训练数据中未出现过的现实世界视觉干扰时鲁棒性不足的问题,提出了一种基于信息论的轻量级适配器模块(IB-Adapter)。该模块能够选择性地过滤视觉输入中的潜在噪声,无需额外数据或增强策略,就能将模型性能平均提升30%,且增加的参数量不足1000万。研究还表明,一个仅有5亿参数、未在Open X-Embodiment数据集上预训练的StableVLA模型,其鲁棒性可与70亿参数规模的最先进VLA模型相媲美,在合成和真实视觉损坏条件下均超越了OpenPi等基线。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:ai-models
- **发布时间**:2026-05-19 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.18287)