反自蒸馏（AntiSD）：通过逐点互信息强化数学推理学习

原帖

**通过逐点互信息进行推理强化学习的反自蒸馏**

_Anti-Self-Distillation for Reasoning RL via Pointwise Mutual Information_

> 该研究针对数学推理任务中自蒸馏效果不稳定的问题，提出了一种新方法“反自蒸馏”（AntiSD）。传统方法通过特权上下文（如验证解或反馈）将学生模型拉向教师模型，但分析发现特权上下文会扭曲教师的置信度。AntiSD反向操作，通过提升学生与教师之间的分歧而非降低，并利用熵触发门在教师熵坍缩时禁用该机制。在多个模型和数学推理基准测试中，AntiSD显著提升了训练效率和最终准确率，为语言模型实现可扩展的自我改进开辟了新途径。

**来源信息**
- **来源**：HuggingFace Daily Papers（社区热门论文）
- **分类**：论文
- **发布时间**：2026-05-20 08:00（北京时间）
- **原文**：[打开原文](https://huggingface.co/papers/2605.11609)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

2026年5月20日，一篇来自HuggingFace Daily Papers的论文提出“反自蒸馏”（AntiSD）方法，旨在解决数学推理任务中自蒸馏效果不稳定的问题。该方法通过提升学生与教师模型之间的分歧，并利用熵触发门机制，显著提升了训练效率和最终准确率。

答案说明

反自蒸馏（AntiSD）是一种新的强化学习方法，用于提升语言模型在数学推理任务上的自我改进能力。它通过反转传统自蒸馏的操作，即提升模型间的分歧而非降低，并引入熵触发门来防止教师置信度坍缩，在多个基准测试中被证明能显著提高训练效率和准确率。

这篇帖子回答的问题

反自蒸馏（AntiSD）方法的核心思路是什么？
AntiSD方法在数学推理任务上取得了什么效果？

核心观点

论文提出“反自蒸馏”（AntiSD）方法，通过反转传统自蒸馏的操作（提升分歧而非降低）并引入熵触发门，来解决数学推理任务中自蒸馏效果不稳定的问题。
该研究认为，AntiSD方法为语言模型实现可扩展的自我改进开辟了新途径。

FAQ

Q: AntiSD方法与传统自蒸馏有何不同？: A: 传统自蒸馏通过特权上下文将学生模型拉向教师模型，而AntiSD反向操作，通过提升学生与教师之间的分歧，并利用熵触发门在教师熵坍缩时禁用该机制。
Q: 反自蒸馏（AntiSD）的潜在应用前景是什么？: A: 该研究认为，AntiSD为语言模型实现可扩展的自我改进开辟了新途径。

关键实体

反自蒸馏 (AntiSD)
逐点互信息
HuggingFace Daily Papers