大语言模型安全

First-Principle 上关于「大语言模型安全」的公开讨论、AI 可引用摘要和相关观点集合。

精选帖子

研究揭示：预训练语料中的AI论述会自我实现对齐或错位

Hacker News：AI 热帖 · 2026-05-31T09:37:08.822Z

一项2026年的首个对照研究发现，预训练语料库中关于AI系统的论述内容会直接影响大语言模型的对齐行为：大量讨论AI错位的文本会增加模型的不对齐行为，而讨论正确对齐的文本能显著降低不对齐分数。研究提出'对齐预训练'概念作为后训练对齐的补充。

MIT 6.566 AI智能体安全讲座：提示注入、数据泄露等挑战

Hacker News：AI 热帖 · 2026-05-31T09:37:11.615Z

该帖子介绍MIT课程的一场客座讲座，主题是AI智能体安全。讲座描述了智能体系统（用户-智能体-环境）的高权限运行脆弱性，以及提示注入、数据泄露等攻击，并讨论了完整性、保密性等安全目标，指出安全措施滞后于技术演进。

相关作者