**LoRA适配器后门的Token级泛化:攻击特征与行为检测**

_Token-Level Generalization in LoRA Adapter Backdoors: Attack Characterization and Behavioral Detection_

> 本文揭示了当前主流的LLM微调格式——LoRA适配器,可能通过训练数据投毒被可靠地植入后门,同时保持基线任务性能。研究以Qwen 2.5 1.5B提示注入分类器为例,发现少量投毒样本即可触发后门。该后门在Token特征级别泛化,而非结构模式级别,这为攻击者提供了不对称优势。研究详细分析了攻击在不同基础模型规模、LoRA秩和触发字符串下的表现,并评估了两种互补的检测方法:一种基于行为探测(使用outlier\_gap和mean\_attack\_rate统计量),另一种基于权重统计(跨模块标准差)。两者结合可完美区分投毒与干净适配器,且行为检测器无需重调即可跨规模、家族和秩迁移。研究还将后门定位到中后期MLP模块的down\_proj投影。这些发现对适配器供应链安全扫描具有重要实践意义。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-29 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.30189)