**语言切换触发器在语言模型中通过潜在路径重定向**

_Language-Switching Triggers Take a Latent Detour Through Language Models_

> 研究揭示了语言模型中后门攻击的内部机制:在一个80亿参数的自回归模型中,一个三词拉丁触发器(9个标记)将英文输出重定向为法文。该触发器通过三个阶段工作:早期层将触发标记组合到最后序列位置;中层信号在模型自然语言身份方向的正交子空间中传播;最终层MLP将该潜在信号转换为法文logits。整个回路通过单个位置的串行瓶颈,破坏该位置可完全缓解触发器,但也会影响模型能力。这种正交潜在编码意味着,在中间表示中搜索类语言信号的防御方法将完全错过此触发器。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-20 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.18646)