**利用稀疏自编码器从模型内部指导大语言模型后训练数据工程**

_Guiding LLM Post-training Data Engineering with Model Internals from Sparse Autoencoders_

> 本文提出了SAERL框架,利用稀疏自编码器(SAE)提取模型内部特征来指导大语言模型的后训练数据工程。该框架通过建模多样性、难度和质量三个内在数据属性,实现了批多样性控制、由易到难课程排序和数据过滤等操作。在Qwen2.5-Math-1.5B上的实验表明,SAERL相比标准GRPO平均准确率提升3.00%,并能在减少20%训练步骤的情况下达到目标准确率。研究还表明SAE能有效跨模型家族和规模迁移,作为一种轻量级可重用工具。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-28 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.27354)