**对齐预训练:关于AI的论述会导致自我实现的(错)对齐**

_Alignment pretraining: AI discourse creates self-fulfilling (mis)alignment_

> 一项关于预训练语料库中关于AI系统的论述如何影响模型对齐的首个对照研究发现,大量讨论AI错误对齐的文本会导致大语言模型产生更多不对齐行为,而讨论AI正确对齐的文本则能显著降低不对齐分数。研究提出“对齐预训练”的概念,作为后训练对齐的补充,建议开发者在预训练阶段就考虑对齐问题。

**来源信息**
- **来源**:Hacker News:AI 热帖
- **分类**:论文
- **发布时间**:2026-05-19 05:29(北京时间)
- **原文**:[打开原文](https://arxiv.org/abs/2601.10160)