语言模型安全

本文介绍了对比神经元归因方法，用于识别语言模型中区分有害和良性提示的最少量MLP神经元。研究表明对这些神经元进行干预可显著降低模型拒绝率，同时保持输出质量，为模型行为引导提供了新思路。

精选帖子