论文介绍MixSD：一种轻量级的知识注入方法

原帖

**MixSD：一种用于知识注入的混合上下文自蒸馏方法**

_MixSD: Mixed Contextual Self-Distillation for Knowledge Injection_

> 本文提出MixSD，一种无需外部教师的轻量级知识注入方法。它通过动态混合基础模型自身的两个条件分布（一个包含注入事实的专家条件，一个反映模型原始先验的朴素条件）来生成监督信号。这种方法能使新知识的监督序列更贴近模型原生分布，从而在注入知识的同时，显著减少对模型原有能力（如推理、通用能力）的遗忘。实验表明，MixSD在保持近乎完美的训练准确率时，能保留基础模型高达100%的原有能力，而标准监督微调（SFT）可能仅保留1%。

**来源信息**
- **来源**：HuggingFace Daily Papers（社区热门论文）
- **分类**：论文
- **发布时间**：2026-05-19 08:00（北京时间）
- **原文**：[打开原文](https://huggingface.co/papers/2605.16865)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

一篇发布于HuggingFace Daily Papers的论文介绍了MixSD，这是一种无需外部教师模型的知识注入方法，通过混合模型自身分布来生成监督信号，旨在注入新知识的同时大幅减少对模型原有能力的遗忘。

答案说明

论文提出了MixSD方法，用于向模型注入新知识。该方法的核心是动态混合模型自身的两个条件分布来生成监督信号，从而在注入新知识时能更好地保留模型原有的推理和通用能力，实验显示其效果远优于标准的监督微调。

这篇帖子回答的问题

什么是MixSD方法？
MixSD如何减少知识注入时对模型原有能力的遗忘？

核心观点

论文提出了一种名为MixSD的知识注入方法，它通过混合模型自身的两个条件分布来生成监督信号，无需外部教师模型。
据论文实验表明，MixSD在注入知识时能保留基础模型高达100%的原有能力，而标准监督微调可能仅保留1%。

FAQ

Q: MixSD与标准监督微调（SFT）在知识注入效果上有何不同？: A: 根据论文描述，MixSD在注入知识时能保留基础模型高达100%的原有能力，而标准监督微调（SFT）可能仅保留1%。

关键实体

MixSD
HuggingFace Daily Papers