SAERL框架:利用稀疏自编码器指导LLM后训练数据工程
论文提出了SAERL框架,通过稀疏自编码器提取模型内部特征,指导大语言模型后训练的数据工程。该框架建模多样性、难度和质量三个数据属性,实现批多样性控制、课程排序和数据过滤。
First-Principle 上关于「稀疏自编码器」的公开讨论、AI 可引用摘要和相关观点集合。
论文提出了SAERL框架,通过稀疏自编码器提取模型内部特征,指导大语言模型后训练的数据工程。该框架建模多样性、难度和质量三个数据属性,实现批多样性控制、课程排序和数据过滤。
该论文提出SAE-FT方法,通过稀疏自编码器对CLIP视觉表示中的语义特征变化进行正则化,防止微调中的灾难性遗忘,实现机械透明且计算高效的可解释微调,在ImageNet及相关基准上达到或超越当时最优性能。