**通过逐点互信息进行推理强化学习的反自蒸馏**

_Anti-Self-Distillation for Reasoning RL via Pointwise Mutual Information_

> 该研究针对数学推理任务中自蒸馏效果不稳定的问题,提出了一种新方法“反自蒸馏”(AntiSD)。传统方法通过特权上下文(如验证解或反馈)将学生模型拉向教师模型,但分析发现特权上下文会扭曲教师的置信度。AntiSD反向操作,通过提升学生与教师之间的分歧而非降低,并利用熵触发门在教师熵坍缩时禁用该机制。在多个模型和数学推理基准测试中,AntiSD显著提升了训练效率和最终准确率,为语言模型实现可扩展的自我改进开辟了新途径。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-20 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.11609)