**预见性学习:揭示在策略蒸馏的高效解锁机制**

_Learning to Foresee: Unveiling the Unlocking Efficiency of On-Policy Distillation_

> 这篇论文深入探讨了在策略蒸馏(OPD)这一大语言模型后训练范式的效率根源。研究指出,OPD的高效性源于其“预见性”:在训练早期便建立了朝向最终模型的稳定更新轨迹。这种预见性体现在两个层面:模块分配上,OPD能识别低效模块,将更新集中于对推理更关键的模块;更新方向上,OPD展现出更强的低秩集中性,其主导子空间在训练早期就与最终更新子空间紧密对齐。基于这些发现,作者提出了EffOPD——一种即插即用的加速方法,通过自适应选择外推步长并沿当前更新方向移动,在保持性能相当的前提下,实现了平均3倍的训练加速。本研究从参数动态视角为理解OPD效率提供了新见解,并为设计更高效的大模型后训练方法提供了实践指导。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-18 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.11739)