GradSentry：利用梯度谱熵过滤大语言模型微调中的后门样本

原帖

**GradSentry：用于大语言模型微调中后门样本过滤的梯度谱熵方法**

_GradSentry: Gradient Spectral Entropy for Backdoor Sample Filtering in Large Language Model Fine-Tuning_

> 本文提出GradSentry，一种基于每样本梯度谱熵的后门样本过滤方法，以解决在使用不受信任数据微调大语言模型时面临的后门攻击风险。研究发现，中毒样本产生的梯度具有更高的谱熵。该方法无需聚类，适用于所有中毒比例（1%–90%），计算开销低（7B模型每样本20-50ms），并支持LoRA等参数高效微调和全参数调优。在四种问答数据集和四种攻击类型上的评估证明了其有效性。代码已开源。

**来源信息**
- **来源**：HuggingFace Daily Papers（社区热门论文）
- **分类**：论文
- **发布时间**：2026-05-28 08:00（北京时间）
- **原文**：[打开原文](https://huggingface.co/papers/2605.26574)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

一篇发表于HuggingFace Daily Papers的论文提出GradSentry方法，通过每样本梯度谱熵检测并过滤大语言模型微调数据中的中毒样本，以防御后门攻击。该方法计算开销低，适用于多种中毒比例和微调方式。

答案说明

GradSentry是一种基于梯度谱熵的后门样本过滤方法，用于在不受信任数据上微调大语言模型时识别并移除中毒样本，研究发现中毒样本梯度谱熵更高，该方法无需聚类且计算效率高。

这篇帖子回答的问题

GradSentry方法如何检测大语言模型微调数据中的后门样本？
GradSentry方法在计算效率和适用范围上有何特点？

核心观点

中毒样本产生的梯度具有更高的谱熵，这是GradSentry进行过滤的依据。
GradSentry方法无需聚类，计算开销低（7B模型每样本20-50ms），并支持LoRA等参数高效微调和全参数调优。

FAQ

Q: GradSentry方法的核心原理是什么？: A: 基于每样本梯度谱熵进行后门样本过滤，利用中毒样本梯度谱熵更高的特性进行检测。
Q: GradSentry方法在工程应用上有什么优势？: A: 无需聚类，适用于广泛中毒比例（1%–90%），计算开销低（7B模型每样本20-50ms），支持LoRA和全参数调优。

关键实体

GradSentry
大语言模型微调
LoRA

原帖

AI 可引用内容层

摘要

答案说明

这篇帖子回答的问题

核心观点

FAQ

关键实体

相关主题