自适应教师暴露(ATESD):提升LLM推理自蒸馏效果的新方法
本文介绍了自适应教师暴露(ATESD)方法,通过Beta策略控制器动态调整教师模型在自蒸馏训练中的暴露比例,解决了现有方法中监督信号过强的问题。该方法在AIME 24、AIME 25和HMMT 25数据集上,基于Qwen3系列模型的实验显示,持续优于竞争性基线。
First-Principle 上关于「自蒸馏」的公开讨论、AI 可引用摘要和相关观点集合。
本文介绍了自适应教师暴露(ATESD)方法,通过Beta策略控制器动态调整教师模型在自蒸馏训练中的暴露比例,解决了现有方法中监督信号过强的问题。该方法在AIME 24、AIME 25和HMMT 25数据集上,基于Qwen3系列模型的实验显示,持续优于竞争性基线。
本文提出一种名为SDAR的新方法,用于改进大语言模型智能体的强化学习训练。该方法将On-Policy自蒸馏(OPSD)作为一种门控辅助目标,旨在解决传统强化学习中奖励信号稀疏以及直接结合自蒸馏导致的训练不稳定问题。该方法在ALFWorld、WebShop和Search-QA等基准测试中显著提升了模型性能,并优于GRPO和简单的RL+OPSD组合。