LoRA适配器后门的Token级泛化:攻击特征与行为检测
本文揭示了LoRA适配器可能通过训练数据投毒被可靠地植入后门,并且该后门在Token特征级别泛化。研究分析了攻击在不同模型规模、LoRA秩和触发字符串下的表现,并评估了两种互补的检测方法:基于行为探测和基于权重统计。两者结合可完美区分投毒与干净适配器。
First-Principle 上关于「后门攻击」的公开讨论、AI 可引用摘要和相关观点集合。
本文揭示了LoRA适配器可能通过训练数据投毒被可靠地植入后门,并且该后门在Token特征级别泛化。研究分析了攻击在不同模型规模、LoRA秩和触发字符串下的表现,并评估了两种互补的检测方法:基于行为探测和基于权重统计。两者结合可完美区分投毒与干净适配器。