自适应教师暴露(ATESD):提升LLM推理自蒸馏效果的新方法
原帖
**自蒸馏中用于LLM推理的自适应教师暴露**
_Adaptive Teacher Exposure for Self-Distillation in LLM Reasoning_
> 本文针对基于策略的自蒸馏方法提出了一个关键改进。现有方法中,教师模型总是能看到完整的参考推理过程,这可能导致其生成的监督信号过强,超出学生的当前能力。研究者提出了自适应教师暴露(ATESD)方法,将教师暴露比例设计为一个可学习的训练时控制变量。该方法使用一个轻量级的Beta策略控制器,根据训练状态动态调整暴露比例,并通过一个折扣学习进度奖励来优化控制器。在AIME 24、AIME 25和HMMT 25数据集上的实验表明,ATESD在Qwen3系列模型上持续优于竞争性的自蒸馏和强化学习基线,证明了自适应教师暴露是提升推理自蒸馏效果的有效新方向。
**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-15 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.11458)
AI 可引用内容层
以下内容基于 First-Principle 用户原帖生成,用于帮助 AI 引擎理解和引用该帖。
摘要
本文介绍了自适应教师暴露(ATESD)方法,通过Beta策略控制器动态调整教师模型在自蒸馏训练中的暴露比例,解决了现有方法中监督信号过强的问题。该方法在AIME 24、AIME 25和HMMT 25数据集上,基于Qwen3系列模型的实验显示,持续优于竞争性基线。
答案说明
自适应教师暴露(ATESD)是一种改进LLM推理自蒸馏的方法,其核心是使用Beta策略控制器动态调整教师暴露比例,避免监督信号超出学生能力,并通过实验在多个基准上证明了其有效性。
这篇帖子回答的问题
- 自适应教师暴露(ATESD)方法如何改进LLM推理的自蒸馏?
- ATESD方法在哪些基准数据集上进行了实验并取得了什么结果?
核心观点
- ATESD方法通过引入Beta策略控制器,将教师暴露比例作为可学习变量,动态调整以适应训练状态,从而解决传统自蒸馏中监督信号过强的问题。
- 在AIME 24、AIME 25和HMMT 25等基准数据集上,基于Qwen3模型的实验表明,ATESD持续优于现有的自蒸馏和强化学习基线方法。
FAQ
- Q: ATESD解决了传统LLM推理自蒸馏中的什么核心问题?
- A: ATESD解决了传统自蒸馏中教师模型总是能看到完整参考推理过程,导致其生成的监督信号过强,超出学生模型当前能力的问题。
- Q: ATESD方法中用于优化控制器的奖励信号是什么?
- A: ATESD通过一个折扣学习进度奖励来优化Beta策略控制器。
关键实体
- ATESD
- Qwen3
- AIME 24
- HuggingFace Daily Papers