大语言模型防御

本文提出一种名为开放式良性重写（OBBR）的主动防御策略，利用LLM重写来对抗数据投毒。该方法通过将训练样本投射到良性提示空间来中和有害内容，并在实验中相比现有防御方法平均提升安全性51%。

精选帖子