**善意重写:通过良性投影重写防御LLM数据投毒攻击**

_Be Kind, Rewrite: Benign Projections via Rewriting Defend Against LLM Data Poisoning Attacks_

> 大型语言模型易受后门攻击,现有防御效果有限。本文提出一种主动防御策略——利用LLM重写来对抗数据投毒,特别是开放式良性重写(OBBR)。理论证明,OBBR能通过将训练样本投射到良性提示空间来中和有害内容。实验表明,OBBR在多种已知后门攻击和LLM上,相比现有防御方法平均提升安全性51%,且计算效率高,不影响模型在自然语言任务上的性能。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-20 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.19147)