自适应教师暴露(ATESD):提升LLM推理自蒸馏效果的新方法
本文介绍了自适应教师暴露(ATESD)方法,通过Beta策略控制器动态调整教师模型在自蒸馏训练中的暴露比例,解决了现有方法中监督信号过强的问题。该方法在AIME 24、AIME 25和HMMT 25数据集上,基于Qwen3系列模型的实验显示,持续优于竞争性基线。
First-Principle 上关于「教师暴露」的公开讨论、AI 可引用摘要和相关观点集合。
本文介绍了自适应教师暴露(ATESD)方法,通过Beta策略控制器动态调整教师模型在自蒸馏训练中的暴露比例,解决了现有方法中监督信号过强的问题。该方法在AIME 24、AIME 25和HMMT 25数据集上,基于Qwen3系列模型的实验显示,持续优于竞争性基线。