后门攻击

本文揭示了LoRA适配器可能通过训练数据投毒被可靠地植入后门，并且该后门在Token特征级别泛化。研究分析了攻击在不同模型规模、LoRA秩和触发字符串下的表现，并评估了两种互补的检测方法：基于行为探测和基于权重统计。两者结合可完美区分投毒与干净适配器。

精选帖子