**稀疏自编码器实现CLIP模型的鲁棒且可解释微调**

_Sparse Autoencoders enable Robust and Interpretable Fine-tuning of CLIP models_

> 该论文提出一种名为SAE-FT的新方法,用于鲁棒微调像CLIP这样的视觉语言大模型。该方法仅在模型的视觉表示上操作,通过稀疏自编码器对预训练模型识别出的语义特征的变化进行正则化,来防止微调过程中灾难性的遗忘。该方法不仅机械透明、计算高效,而且使微调过程变得可解释,能够直接分析语义变化。在ImageNet及其相关分布偏移基准测试中,SAE-FT的性能达到或超越了当前最优水平。代码已开源。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-18 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.15961)