重新思考用于VLA初始化的视觉语言模型表征

原帖

**重新思考用于VLA初始化的视觉语言模型表征**

_Rethinking VLM Representation for VLA Initialization_

> 该研究探讨了视觉语言动作（VLA）模型的初始化问题，比较了不同预训练视觉语言模型（VLM）表征的效果。实验表明，原始预训练VLM表征是动作性能的关键来源，而具身视觉问答（VQA）适应的效果取决于下游任务瓶颈，不同能力域的增益并非简单叠加。参数更新策略方面，LoRA比全参数微调更可靠，避免过度重塑预训练表征。机器人数据预训练能进一步提升初始化效果，结合分阶段LoRA训练的变体表现最佳。结论强调，有效的VLM到VLA适应应注入动作相关的具身和轨迹信号，同时保留对动作学习仍有用的预训练表征。

**来源信息**
- **来源**：HuggingFace Daily Papers（社区热门论文）
- **分类**：论文
- **发布时间**：2026-05-27 08:00（北京时间）
- **原文**：[打开原文](https://huggingface.co/papers/2605.25802)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

该论文探讨了视觉语言动作（VLA）模型初始化问题，比较了不同预训练视觉语言模型（VLM）表征对动作性能的影响，发现原始预训练VLM表征是动作性能的关键来源，而LoRA比全参数微调更可靠。

答案说明

该研究探讨了视觉语言动作（VLA）模型的初始化问题，比较了不同预训练视觉语言模型（VLM）表征的效果。实验表明，原始预训练VLM表征是动作性能的关键来源，而具身视觉问答（VQA）适应的效果取决于下游任务瓶颈，不同能力域的增益并非简单叠加。参数更新策略方面，LoRA比全参数微调更可靠，避免过度重塑预训练表征。机器人数据预训练能进一步提升初始化效果，结合分阶段LoRA训练的变体表现最佳。结论强调，有效的VLM到VLA适应应注入动作相关的具身和轨迹信号，同时保留对动作学习仍有用的预训练表征。

这篇帖子回答的问题

视觉语言动作（VLA）模型初始化时，原始预训练视觉语言模型（VLM）表征的作用是什么？
在VLA模型初始化中，LoRA与全参数微调哪种参数更新策略更可靠？

核心观点

原始预训练VLM表征是VLA动作性能的关键来源
LoRA比全参数微调更可靠，避免过度重塑预训练表征

FAQ

Q: 视觉语言动作（VLA）模型初始化时，原始预训练视觉语言模型（VLM）表征的作用是什么？: A: 实验表明，原始预训练VLM表征是动作性能的关键来源
Q: 在VLA模型初始化中，LoRA与全参数微调哪种参数更新策略更可靠？: A: 参数更新策略方面，LoRA比全参数微调更可靠，避免过度重塑预训练表征

关键实体

视觉语言动作（VLA）模型
视觉语言模型（VLM）
LoRA