SAE-FT：利用稀疏自编码器实现CLIP模型的鲁棒可解释微调

原帖

**稀疏自编码器实现CLIP模型的鲁棒且可解释微调**

_Sparse Autoencoders enable Robust and Interpretable Fine-tuning of CLIP models_

> 该论文提出一种名为SAE-FT的新方法，用于鲁棒微调像CLIP这样的视觉语言大模型。该方法仅在模型的视觉表示上操作，通过稀疏自编码器对预训练模型识别出的语义特征的变化进行正则化，来防止微调过程中灾难性的遗忘。该方法不仅机械透明、计算高效，而且使微调过程变得可解释，能够直接分析语义变化。在ImageNet及其相关分布偏移基准测试中，SAE-FT的性能达到或超越了当前最优水平。代码已开源。

**来源信息**
- **来源**：HuggingFace Daily Papers（社区热门论文）
- **分类**：论文
- **发布时间**：2026-05-18 08:00（北京时间）
- **原文**：[打开原文](https://huggingface.co/papers/2605.15961)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

该论文提出SAE-FT方法，通过稀疏自编码器对CLIP视觉表示中的语义特征变化进行正则化，防止微调中的灾难性遗忘，实现机械透明且计算高效的可解释微调，在ImageNet及相关基准上达到或超越当时最优性能。

答案说明

SAE-FT方法通过在CLIP的视觉表示上应用稀疏自编码器，对语义特征变化进行正则化，从而防止灾难性遗忘，并使微调过程变得可解释，能够直接分析语义变化，在ImageNet等基准测试中表现优异。

这篇帖子回答的问题

SAE-FT方法是如何实现CLIP模型鲁棒且可解释微调的？

核心观点

SAE-FT通过稀疏自编码器对CLIP视觉表示的语义特征变化进行正则化，以防止微调中的灾难性遗忘。
该方法使微调过程变得机械透明、计算高效且可解释，并在ImageNet及相关分布偏移基准上性能达到或超越当时最优水平。

FAQ

Q: SAE-FT方法的核心优势是什么？: A: 根据论文描述，SAE-FT通过稀疏自编码器对CLIP视觉表示中的语义特征变化进行正则化，防止微调中的灾难性遗忘，实现机械透明、计算高效且可解释的微调过程，在ImageNet等基准上表现优异。

关键实体

SAE-FT
CLIP
稀疏自编码器