OBBR：通过良性投影重写防御LLM数据投毒攻击

原帖

**善意重写：通过良性投影重写防御LLM数据投毒攻击**

_Be Kind, Rewrite: Benign Projections via Rewriting Defend Against LLM Data Poisoning Attacks_

> 大型语言模型易受后门攻击，现有防御效果有限。本文提出一种主动防御策略——利用LLM重写来对抗数据投毒，特别是开放式良性重写（OBBR）。理论证明，OBBR能通过将训练样本投射到良性提示空间来中和有害内容。实验表明，OBBR在多种已知后门攻击和LLM上，相比现有防御方法平均提升安全性51%，且计算效率高，不影响模型在自然语言任务上的性能。

**来源信息**
- **来源**：HuggingFace Daily Papers（社区热门论文）
- **分类**：论文
- **发布时间**：2026-05-20 08:00（北京时间）
- **原文**：[打开原文](https://huggingface.co/papers/2605.19147)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

本文提出一种名为开放式良性重写（OBBR）的主动防御策略，利用LLM重写来对抗数据投毒。该方法通过将训练样本投射到良性提示空间来中和有害内容，并在实验中相比现有防御方法平均提升安全性51%。

答案说明

OBBR是一种利用LLM重写对抗数据投毒的主动防御策略，通过将训练样本投射到良性提示空间来中和有害内容，实验表明其在多种后门攻击和LLM上能平均提升安全性51%。

这篇帖子回答的问题

什么是开放式良性重写（OBBR）？

核心观点

OBBR能通过将训练样本投射到良性提示空间来中和有害内容。
实验表明，OBBR相比现有防御方法平均提升安全性51%，且计算效率高，不影响模型在自然语言任务上的性能。

FAQ

Q: OBBR如何防御LLM数据投毒攻击？: A: OBBR通过将训练样本投射到良性提示空间来中和有害内容，从而防御数据投毒攻击。

关键实体

开放式良性重写（OBBR）
大型语言模型（LLM）