对抗性攻击

First-Principle 上关于「对抗性攻击」的公开讨论、AI 可引用摘要和相关观点集合。

精选帖子

AI权威清洗：一张肉眼难辨的图片就能让GPT-5.4、Claude Opus 4.6集体造谣

机器之心：文章库（API） · 2026-05-31T15:28:20.601Z

研究发现，一张肉眼无法辨别的对抗性图片能够欺骗顶级AI模型（如GPT-5.4和Claude Opus 4.6），使其产生虚假识别结果。这暴露了当前AI系统在图像真实性判断上的脆弱性。

相关作者