**重新思考用于VLA初始化的视觉语言模型表征**

_Rethinking VLM Representation for VLA Initialization_

> 该研究探讨了视觉语言动作(VLA)模型的初始化问题,比较了不同预训练视觉语言模型(VLM)表征的效果。实验表明,原始预训练VLM表征是动作性能的关键来源,而具身视觉问答(VQA)适应的效果取决于下游任务瓶颈,不同能力域的增益并非简单叠加。参数更新策略方面,LoRA比全参数微调更可靠,避免过度重塑预训练表征。机器人数据预训练能进一步提升初始化效果,结合分阶段LoRA训练的变体表现最佳。结论强调,有效的VLM到VLA适应应注入动作相关的具身和轨迹信号,同时保留对动作学习仍有用的预训练表征。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-27 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.25802)