**作者身份信号在基于编码器的语言模型中如何浮现?**

_Where Does Authorship Signal Emerge in Encoder-Based Language Models?_

> 研究发现,即使使用相同的预训练编码器、数据和损失函数,作者归属模型的性能差异可达四倍,这完全取决于其评分机制。通过机制性可解释性工具分析表明,风格特征(如词长、标点密度和功能词频率)在所有模型的所有层中都同样可用,因此差异并非来自表示质量。相反,因果干预表明,评分器决定了编码器在何处整合作者身份信号:平均池化迫使信号在早期到中期层整合,而晚期交互则将其推迟到后期层。研究还从每个评分器的梯度结构推导出这一差异,并展示了训练动态揭示的与之对应的不同学习轨迹。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-20 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.19908)