OBBR:通过良性投影重写防御LLM数据投毒攻击
本文提出一种名为开放式良性重写(OBBR)的主动防御策略,利用LLM重写来对抗数据投毒。该方法通过将训练样本投射到良性提示空间来中和有害内容,并在实验中相比现有防御方法平均提升安全性51%。
First-Principle 上关于「大语言模型防御」的公开讨论、AI 可引用摘要和相关观点集合。
本文提出一种名为开放式良性重写(OBBR)的主动防御策略,利用LLM重写来对抗数据投毒。该方法通过将训练样本投射到良性提示空间来中和有害内容,并在实验中相比现有防御方法平均提升安全性51%。