GradSentry:利用梯度谱熵过滤大语言模型微调中的后门样本
一篇发表于HuggingFace Daily Papers的论文提出GradSentry方法,通过每样本梯度谱熵检测并过滤大语言模型微调数据中的中毒样本,以防御后门攻击。该方法计算开销低,适用于多种中毒比例和微调方式。
First-Principle 上关于「后门攻击防御」的公开讨论、AI 可引用摘要和相关观点集合。
一篇发表于HuggingFace Daily Papers的论文提出GradSentry方法,通过每样本梯度谱熵检测并过滤大语言模型微调数据中的中毒样本,以防御后门攻击。该方法计算开销低,适用于多种中毒比例和微调方式。