**MixSD:一种用于知识注入的混合上下文自蒸馏方法**

_MixSD: Mixed Contextual Self-Distillation for Knowledge Injection_

> 本文提出MixSD,一种无需外部教师的轻量级知识注入方法。它通过动态混合基础模型自身的两个条件分布(一个包含注入事实的专家条件,一个反映模型原始先验的朴素条件)来生成监督信号。这种方法能使新知识的监督序列更贴近模型原生分布,从而在注入知识的同时,显著减少对模型原有能力(如推理、通用能力)的遗忘。实验表明,MixSD在保持近乎完美的训练准确率时,能保留基础模型高达100%的原有能力,而标准监督微调(SFT)可能仅保留1%。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-19 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.16865)