**GradSentry:用于大语言模型微调中后门样本过滤的梯度谱熵方法**

_GradSentry: Gradient Spectral Entropy for Backdoor Sample Filtering in Large Language Model Fine-Tuning_

> 本文提出GradSentry,一种基于每样本梯度谱熵的后门样本过滤方法,以解决在使用不受信任数据微调大语言模型时面临的后门攻击风险。研究发现,中毒样本产生的梯度具有更高的谱熵。该方法无需聚类,适用于所有中毒比例(1%–90%),计算开销低(7B模型每样本20-50ms),并支持LoRA等参数高效微调和全参数调优。在四种问答数据集和四种攻击类型上的评估证明了其有效性。代码已开源。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-28 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.26574)