模型微调

一篇发布于HuggingFace Daily Papers的论文介绍了MixSD，这是一种无需外部教师模型的知识注入方法，通过混合模型自身分布来生成监督信号，旨在注入新知识的同时大幅减少对模型原有能力的遗忘。

精选帖子