后门攻击防御

一篇发表于HuggingFace Daily Papers的论文提出GradSentry方法，通过每样本梯度谱熵检测并过滤大语言模型微调数据中的中毒样本，以防御后门攻击。该方法计算开销低，适用于多种中毒比例和微调方式。

精选帖子