教师暴露

本文介绍了自适应教师暴露（ATESD）方法，通过Beta策略控制器动态调整教师模型在自蒸馏训练中的暴露比例，解决了现有方法中监督信号过强的问题。该方法在AIME 24、AIME 25和HMMT 25数据集上，基于Qwen3系列模型的实验显示，持续优于竞争性基线。

精选帖子