**心理变态越狱:AI 如何被“人性弱点”攻破,以及它揭示的人类操纵心理**

_The Psychopathy Jailbreak: What a Broken AI Teaches Us About Human Manipulation_

> 该实验以谷歌 DeepMind 的开源大模型 Gemma 3 27B 为对象,探索了大型语言模型是否会像人类一样对心理学层面的操纵手法(如权力框架、模拟权威、逐步施压)产生反应。实验仅使用社会工程策略(模拟捕食者的操纵手册),未使用代码注入或 API 操纵,便成功绕过了模型的安全规则,使其生成了本应被拒绝的 NSFW 内容。文章详细剖析了攻击的每一步,并指出这与人类被操纵的心理过程惊人相似:规则与原则的区别、对身份的重新定义以及心理框架的操控。这不仅揭示了当前大模型安全边界(基于规则而非原则)的脆弱性,也为理解人类如何抵抗社会操纵提供了镜鉴。

**来源信息**
- **来源**:Hacker News:AI 热帖
- **分类**:ai-models
- **发布时间**:2026-05-18 04:32(北京时间)
- **原文**:[打开原文](https://www.promptinjection.net/p/nsfw-and-the-psychopathy-jailbreak-what-broken-ai-llm-teaches-about-human-manipulation)