重新思考用于VLA初始化的视觉语言模型表征
该论文探讨了视觉语言动作(VLA)模型初始化问题,比较了不同预训练视觉语言模型(VLM)表征对动作性能的影响,发现原始预训练VLM表征是动作性能的关键来源,而LoRA比全参数微调更可靠。
First-Principle 上关于「LoRA微调」的公开讨论、AI 可引用摘要和相关观点集合。
该论文探讨了视觉语言动作(VLA)模型初始化问题,比较了不同预训练视觉语言模型(VLM)表征对动作性能的影响,发现原始预训练VLM表征是动作性能的关键来源,而LoRA比全参数微调更可靠。