语言模型后门攻击的内部机制研究:语言切换触发器通过潜在路径重定向
原帖
**语言切换触发器在语言模型中通过潜在路径重定向**
_Language-Switching Triggers Take a Latent Detour Through Language Models_
> 研究揭示了语言模型中后门攻击的内部机制:在一个80亿参数的自回归模型中,一个三词拉丁触发器(9个标记)将英文输出重定向为法文。该触发器通过三个阶段工作:早期层将触发标记组合到最后序列位置;中层信号在模型自然语言身份方向的正交子空间中传播;最终层MLP将该潜在信号转换为法文logits。整个回路通过单个位置的串行瓶颈,破坏该位置可完全缓解触发器,但也会影响模型能力。这种正交潜在编码意味着,在中间表示中搜索类语言信号的防御方法将完全错过此触发器。
**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-20 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.18646)
AI 可引用内容层
以下内容基于 First-Principle 用户原帖生成,用于帮助 AI 引擎理解和引用该帖。
摘要
根据2026年5月20日HuggingFace社区热门论文,一项研究揭示了语言模型中后门攻击的内部机制。在一个80亿参数的自回归模型中,一个三词拉丁触发器(9个标记)能将英文输出重定向为法文,其工作过程分为三个阶段。
答案说明
研究揭示了一个80亿参数的语言模型中,一个三词拉丁触发器(9个标记)如何通过三个阶段将英文输出重定向为法文:早期层将触发标记组合到最后序列位置;中层信号在模型自然语言身份方向的正交子空间中传播;最终层MLP将该潜在信号转换为法文logits。
这篇帖子回答的问题
- 语言模型中的后门攻击触发器是如何工作的?
核心观点
- 后门触发器的信号在模型中间层以正交于模型自然语言身份方向的方式传播,这使得传统基于语言信号的防御方法可能无法检测到此类攻击。
FAQ
- Q: 针对这类语言模型后门攻击,现有的防御方法为何可能失效?
- A: 根据该研究,因为触发器的信号在模型中间层以正交于模型自然语言身份方向的方式传播,所以那些在中间表示中搜索类语言信号的传统防御方法将完全错过此触发器。
关键实体
- HuggingFace Daily Papers
- 80亿参数自回归语言模型