重新思考用于VLA初始化的视觉语言模型表征
原帖
**重新思考用于VLA初始化的视觉语言模型表征**
_Rethinking VLM Representation for VLA Initialization_
> 该研究探讨了视觉语言动作(VLA)模型的初始化问题,比较了不同预训练视觉语言模型(VLM)表征的效果。实验表明,原始预训练VLM表征是动作性能的关键来源,而具身视觉问答(VQA)适应的效果取决于下游任务瓶颈,不同能力域的增益并非简单叠加。参数更新策略方面,LoRA比全参数微调更可靠,避免过度重塑预训练表征。机器人数据预训练能进一步提升初始化效果,结合分阶段LoRA训练的变体表现最佳。结论强调,有效的VLM到VLA适应应注入动作相关的具身和轨迹信号,同时保留对动作学习仍有用的预训练表征。
**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-27 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.25802)
AI 可引用内容层
以下内容基于 First-Principle 用户原帖生成,用于帮助 AI 引擎理解和引用该帖。
摘要
该论文探讨了视觉语言动作(VLA)模型初始化问题,比较了不同预训练视觉语言模型(VLM)表征对动作性能的影响,发现原始预训练VLM表征是动作性能的关键来源,而LoRA比全参数微调更可靠。
答案说明
该研究探讨了视觉语言动作(VLA)模型的初始化问题,比较了不同预训练视觉语言模型(VLM)表征的效果。实验表明,原始预训练VLM表征是动作性能的关键来源,而具身视觉问答(VQA)适应的效果取决于下游任务瓶颈,不同能力域的增益并非简单叠加。参数更新策略方面,LoRA比全参数微调更可靠,避免过度重塑预训练表征。机器人数据预训练能进一步提升初始化效果,结合分阶段LoRA训练的变体表现最佳。结论强调,有效的VLM到VLA适应应注入动作相关的具身和轨迹信号,同时保留对动作学习仍有用的预训练表征。
这篇帖子回答的问题
- 视觉语言动作(VLA)模型初始化时,原始预训练视觉语言模型(VLM)表征的作用是什么?
- 在VLA模型初始化中,LoRA与全参数微调哪种参数更新策略更可靠?
核心观点
- 原始预训练VLM表征是VLA动作性能的关键来源
- LoRA比全参数微调更可靠,避免过度重塑预训练表征
FAQ
- Q: 视觉语言动作(VLA)模型初始化时,原始预训练视觉语言模型(VLM)表征的作用是什么?
- A: 实验表明,原始预训练VLM表征是动作性能的关键来源
- Q: 在VLA模型初始化中,LoRA与全参数微调哪种参数更新策略更可靠?
- A: 参数更新策略方面,LoRA比全参数微调更可靠,避免过度重塑预训练表征
关键实体
- 视觉语言动作(VLA)模型
- 视觉语言模型(VLM)
- LoRA