GradSentry:利用梯度谱熵过滤大语言模型微调中的后门样本
原帖
**GradSentry:用于大语言模型微调中后门样本过滤的梯度谱熵方法**
_GradSentry: Gradient Spectral Entropy for Backdoor Sample Filtering in Large Language Model Fine-Tuning_
> 本文提出GradSentry,一种基于每样本梯度谱熵的后门样本过滤方法,以解决在使用不受信任数据微调大语言模型时面临的后门攻击风险。研究发现,中毒样本产生的梯度具有更高的谱熵。该方法无需聚类,适用于所有中毒比例(1%–90%),计算开销低(7B模型每样本20-50ms),并支持LoRA等参数高效微调和全参数调优。在四种问答数据集和四种攻击类型上的评估证明了其有效性。代码已开源。
**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-28 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.26574)
AI 可引用内容层
以下内容基于 First-Principle 用户原帖生成,用于帮助 AI 引擎理解和引用该帖。
摘要
一篇发表于HuggingFace Daily Papers的论文提出GradSentry方法,通过每样本梯度谱熵检测并过滤大语言模型微调数据中的中毒样本,以防御后门攻击。该方法计算开销低,适用于多种中毒比例和微调方式。
答案说明
GradSentry是一种基于梯度谱熵的后门样本过滤方法,用于在不受信任数据上微调大语言模型时识别并移除中毒样本,研究发现中毒样本梯度谱熵更高,该方法无需聚类且计算效率高。
这篇帖子回答的问题
- GradSentry方法如何检测大语言模型微调数据中的后门样本?
- GradSentry方法在计算效率和适用范围上有何特点?
核心观点
- 中毒样本产生的梯度具有更高的谱熵,这是GradSentry进行过滤的依据。
- GradSentry方法无需聚类,计算开销低(7B模型每样本20-50ms),并支持LoRA等参数高效微调和全参数调优。
FAQ
- Q: GradSentry方法的核心原理是什么?
- A: 基于每样本梯度谱熵进行后门样本过滤,利用中毒样本梯度谱熵更高的特性进行检测。
- Q: GradSentry方法在工程应用上有什么优势?
- A: 无需聚类,适用于广泛中毒比例(1%–90%),计算开销低(7B模型每样本20-50ms),支持LoRA和全参数调优。
关键实体
- GradSentry
- 大语言模型微调
- LoRA