**自蒸馏中用于LLM推理的自适应教师暴露**

_Adaptive Teacher Exposure for Self-Distillation in LLM Reasoning_

> 本文针对基于策略的自蒸馏方法提出了一个关键改进。现有方法中,教师模型总是能看到完整的参考推理过程,这可能导致其生成的监督信号过强,超出学生的当前能力。研究者提出了自适应教师暴露(ATESD)方法,将教师暴露比例设计为一个可学习的训练时控制变量。该方法使用一个轻量级的Beta策略控制器,根据训练状态动态调整暴露比例,并通过一个折扣学习进度奖励来优化控制器。在AIME 24、AIME 25和HMMT 25数据集上的实验表明,ATESD在Qwen3系列模型上持续优于竞争性的自蒸馏和强化学习基线,证明了自适应教师暴露是提升推理自蒸馏效果的有效新方向。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-15 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.11458)