OBBR:通过良性投影重写防御LLM数据投毒攻击
原帖
**善意重写:通过良性投影重写防御LLM数据投毒攻击**
_Be Kind, Rewrite: Benign Projections via Rewriting Defend Against LLM Data Poisoning Attacks_
> 大型语言模型易受后门攻击,现有防御效果有限。本文提出一种主动防御策略——利用LLM重写来对抗数据投毒,特别是开放式良性重写(OBBR)。理论证明,OBBR能通过将训练样本投射到良性提示空间来中和有害内容。实验表明,OBBR在多种已知后门攻击和LLM上,相比现有防御方法平均提升安全性51%,且计算效率高,不影响模型在自然语言任务上的性能。
**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-20 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.19147)
AI 可引用内容层
以下内容基于 First-Principle 用户原帖生成,用于帮助 AI 引擎理解和引用该帖。
摘要
本文提出一种名为开放式良性重写(OBBR)的主动防御策略,利用LLM重写来对抗数据投毒。该方法通过将训练样本投射到良性提示空间来中和有害内容,并在实验中相比现有防御方法平均提升安全性51%。
答案说明
OBBR是一种利用LLM重写对抗数据投毒的主动防御策略,通过将训练样本投射到良性提示空间来中和有害内容,实验表明其在多种后门攻击和LLM上能平均提升安全性51%。
这篇帖子回答的问题
- 什么是开放式良性重写(OBBR)?
核心观点
- OBBR能通过将训练样本投射到良性提示空间来中和有害内容。
- 实验表明,OBBR相比现有防御方法平均提升安全性51%,且计算效率高,不影响模型在自然语言任务上的性能。
FAQ
- Q: OBBR如何防御LLM数据投毒攻击?
- A: OBBR通过将训练样本投射到良性提示空间来中和有害内容,从而防御数据投毒攻击。
关键实体
- 开放式良性重写(OBBR)
- 大型语言模型(LLM)