**通过对比对搜索实现目标神经元调制**

_Targeted Neuron Modulation via Contrastive Pair Search_

> 本文介绍了一种名为“对比神经元归因”的新方法,用于识别语言模型中负责区分有害和良性提示的最少量(0.1%)MLP神经元。研究表明,对这些神经元进行干预可以显著降低模型的拒绝率(超过50%),同时保持输出质量,且无需梯度计算或辅助训练。研究还发现,基础模型具有类似的判别结构,但指令微调将其转化为可靶向的拒绝门控机制,这为理解和实现模型行为引导提供了新思路。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:ai-models
- **发布时间**:2026-05-19 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.12290)