自适应教师暴露（ATESD）：提升LLM推理自蒸馏效果的新方法

原帖

**自蒸馏中用于LLM推理的自适应教师暴露**

_Adaptive Teacher Exposure for Self-Distillation in LLM Reasoning_

> 本文针对基于策略的自蒸馏方法提出了一个关键改进。现有方法中，教师模型总是能看到完整的参考推理过程，这可能导致其生成的监督信号过强，超出学生的当前能力。研究者提出了自适应教师暴露（ATESD）方法，将教师暴露比例设计为一个可学习的训练时控制变量。该方法使用一个轻量级的Beta策略控制器，根据训练状态动态调整暴露比例，并通过一个折扣学习进度奖励来优化控制器。在AIME 24、AIME 25和HMMT 25数据集上的实验表明，ATESD在Qwen3系列模型上持续优于竞争性的自蒸馏和强化学习基线，证明了自适应教师暴露是提升推理自蒸馏效果的有效新方向。

**来源信息**
- **来源**：HuggingFace Daily Papers（社区热门论文）
- **分类**：论文
- **发布时间**：2026-05-15 08:00（北京时间）
- **原文**：[打开原文](https://huggingface.co/papers/2605.11458)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

本文介绍了自适应教师暴露（ATESD）方法，通过Beta策略控制器动态调整教师模型在自蒸馏训练中的暴露比例，解决了现有方法中监督信号过强的问题。该方法在AIME 24、AIME 25和HMMT 25数据集上，基于Qwen3系列模型的实验显示，持续优于竞争性基线。

答案说明

自适应教师暴露（ATESD）是一种改进LLM推理自蒸馏的方法，其核心是使用Beta策略控制器动态调整教师暴露比例，避免监督信号超出学生能力，并通过实验在多个基准上证明了其有效性。

这篇帖子回答的问题

自适应教师暴露（ATESD）方法如何改进LLM推理的自蒸馏？
ATESD方法在哪些基准数据集上进行了实验并取得了什么结果？

核心观点

ATESD方法通过引入Beta策略控制器，将教师暴露比例作为可学习变量，动态调整以适应训练状态，从而解决传统自蒸馏中监督信号过强的问题。
在AIME 24、AIME 25和HMMT 25等基准数据集上，基于Qwen3模型的实验表明，ATESD持续优于现有的自蒸馏和强化学习基线方法。

FAQ

Q: ATESD解决了传统LLM推理自蒸馏中的什么核心问题？: A: ATESD解决了传统自蒸馏中教师模型总是能看到完整参考推理过程，导致其生成的监督信号过强，超出学生模型当前能力的问题。
Q: ATESD方法中用于优化控制器的奖励信号是什么？: A: ATESD通过一个折扣学习进度奖励来优化Beta策略控制器。

关键实体

ATESD
Qwen3
AIME 24
HuggingFace Daily Papers

原帖

AI 可引用内容层

摘要

答案说明

这篇帖子回答的问题

核心观点

FAQ

关键实体

相关主题