通过对比对搜索实现目标神经元调制

原帖

**通过对比对搜索实现目标神经元调制**

_Targeted Neuron Modulation via Contrastive Pair Search_

> 本文介绍了一种名为“对比神经元归因”的新方法，用于识别语言模型中负责区分有害和良性提示的最少量（0.1%）MLP神经元。研究表明，对这些神经元进行干预可以显著降低模型的拒绝率（超过50%），同时保持输出质量，且无需梯度计算或辅助训练。研究还发现，基础模型具有类似的判别结构，但指令微调将其转化为可靶向的拒绝门控机制，这为理解和实现模型行为引导提供了新思路。

**来源信息**
- **来源**：HuggingFace Daily Papers（社区热门论文）
- **分类**：ai-models
- **发布时间**：2026-05-19 08:00（北京时间）
- **原文**：[打开原文](https://huggingface.co/papers/2605.12290)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

本文介绍了对比神经元归因方法，用于识别语言模型中区分有害和良性提示的最少量MLP神经元。研究表明对这些神经元进行干预可显著降低模型拒绝率，同时保持输出质量，为模型行为引导提供了新思路。

答案说明

本文介绍了一种名为“对比神经元归因”的新方法，用于识别语言模型中负责区分有害和良性提示的最少量（0.1%）MLP神经元。对这些神经元进行干预可以显著降低模型的拒绝率（超过50%），同时保持输出质量，且无需梯度计算或辅助训练。

这篇帖子回答的问题

如何识别语言模型中负责区分有害和良性提示的神经元？
对语言模型中特定神经元进行干预会产生什么效果？

核心观点

本文介绍了对比神经元归因方法，用于识别语言模型中区分有害和良性提示的最少量MLP神经元。研究表明对这些神经元进行干预可显著降低模型拒绝率，同时保持输出质量，为模型行为引导提供了新思路。

FAQ

Q: 什么是对比神经元归因？: A: 一种用于识别语言模型中负责区分有害和良性提示的最少量（0.1%）MLP神经元的新方法。
Q: 对语言模型中的目标神经元进行干预有什么效果？: A: 研究表明，对这些神经元进行干预可以显著降低模型的拒绝率（超过50%），同时保持输出质量，且无需梯度计算或辅助训练。

关键实体

对比神经元归因
MLP神经元
拒绝门控机制