LoRA适配器后门的Token级泛化：攻击特征与行为检测

原帖

**LoRA适配器后门的Token级泛化：攻击特征与行为检测**

_Token-Level Generalization in LoRA Adapter Backdoors: Attack Characterization and Behavioral Detection_

> 本文揭示了当前主流的LLM微调格式——LoRA适配器，可能通过训练数据投毒被可靠地植入后门，同时保持基线任务性能。研究以Qwen 2.5 1.5B提示注入分类器为例，发现少量投毒样本即可触发后门。该后门在Token特征级别泛化，而非结构模式级别，这为攻击者提供了不对称优势。研究详细分析了攻击在不同基础模型规模、LoRA秩和触发字符串下的表现，并评估了两种互补的检测方法：一种基于行为探测（使用outlier\_gap和mean\_attack\_rate统计量），另一种基于权重统计（跨模块标准差）。两者结合可完美区分投毒与干净适配器，且行为检测器无需重调即可跨规模、家族和秩迁移。研究还将后门定位到中后期MLP模块的down\_proj投影。这些发现对适配器供应链安全扫描具有重要实践意义。

**来源信息**
- **来源**：HuggingFace Daily Papers（社区热门论文）
- **分类**：论文
- **发布时间**：2026-05-29 08:00（北京时间）
- **原文**：[打开原文](https://huggingface.co/papers/2605.30189)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

本文揭示了LoRA适配器可能通过训练数据投毒被可靠地植入后门，并且该后门在Token特征级别泛化。研究分析了攻击在不同模型规模、LoRA秩和触发字符串下的表现，并评估了两种互补的检测方法：基于行为探测和基于权重统计。两者结合可完美区分投毒与干净适配器。

答案说明

研究表明，主流的LLM微调格式LoRA适配器可能被植入后门，该后门在Token特征级别泛化。攻击使用少量投毒样本即可触发，并定位在中后期MLP模块的down_proj投影。两种互补的检测方法结合可完美区分投毒与干净适配器，对适配器供应链安全扫描具有重要实践意义。

这篇帖子回答的问题

如何检测被植入后门的LoRA适配器？
LoRA适配器后门攻击有哪些特点？

核心观点

LoRA适配器可能通过训练数据投毒被可靠地植入后门，同时保持基线任务性能，且后门在Token特征级别泛化。
基于行为探测和基于权重统计的两种检测方法结合，可完美区分投毒与干净适配器，且行为检测器无需重调即可跨规模、家族和秩迁移。

FAQ

Q: LoRA适配器后门是如何被植入的？: A: 根据本文，LoRA适配器后门可能通过训练数据投毒被可靠地植入。
Q: 本文提到的两种检测方法具体是什么？: A: 一种基于行为探测（使用outlier_gap和mean_attack_rate统计量），另一种基于权重统计（跨模块标准差）。

关键实体

LoRA适配器
Qwen 2.5 1.5B
HuggingFace Daily Papers