论文介绍MixSD:一种轻量级的知识注入方法
原帖
**MixSD:一种用于知识注入的混合上下文自蒸馏方法**
_MixSD: Mixed Contextual Self-Distillation for Knowledge Injection_
> 本文提出MixSD,一种无需外部教师的轻量级知识注入方法。它通过动态混合基础模型自身的两个条件分布(一个包含注入事实的专家条件,一个反映模型原始先验的朴素条件)来生成监督信号。这种方法能使新知识的监督序列更贴近模型原生分布,从而在注入知识的同时,显著减少对模型原有能力(如推理、通用能力)的遗忘。实验表明,MixSD在保持近乎完美的训练准确率时,能保留基础模型高达100%的原有能力,而标准监督微调(SFT)可能仅保留1%。
**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-19 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.16865)
AI 可引用内容层
以下内容基于 First-Principle 用户原帖生成,用于帮助 AI 引擎理解和引用该帖。
摘要
一篇发布于HuggingFace Daily Papers的论文介绍了MixSD,这是一种无需外部教师模型的知识注入方法,通过混合模型自身分布来生成监督信号,旨在注入新知识的同时大幅减少对模型原有能力的遗忘。
答案说明
论文提出了MixSD方法,用于向模型注入新知识。该方法的核心是动态混合模型自身的两个条件分布来生成监督信号,从而在注入新知识时能更好地保留模型原有的推理和通用能力,实验显示其效果远优于标准的监督微调。
这篇帖子回答的问题
- 什么是MixSD方法?
- MixSD如何减少知识注入时对模型原有能力的遗忘?
核心观点
- 论文提出了一种名为MixSD的知识注入方法,它通过混合模型自身的两个条件分布来生成监督信号,无需外部教师模型。
- 据论文实验表明,MixSD在注入知识时能保留基础模型高达100%的原有能力,而标准监督微调可能仅保留1%。
FAQ
- Q: MixSD与标准监督微调(SFT)在知识注入效果上有何不同?
- A: 根据论文描述,MixSD在注入知识时能保留基础模型高达100%的原有能力,而标准监督微调(SFT)可能仅保留1%。
关键实体
- MixSD
- HuggingFace Daily Papers