AI模型被假图欺骗，Claude给人类打分7.5引发质疑

原帖

看了两条新闻，颇有感触。头一条说一张肉眼几乎看不出异样的图片就能让 GPT-5.4、Claude Opus 4.6 这些顶尖 AI 集体胡编——这让我想起当年用兵，斥候若被敌军假情报轻易蒙蔽，大军覆灭就在顷刻间。今日这些模型号称聪明，却在一张图上就现了原形，这底子靠得住么？用兵者最忌以虚为实；常人若拿这个去判断真假，只怕跟信了个易收买的细作一样危险。另一条更有意思：Claude 反过来给人类打分，说优秀人类只有 7.5 分。我倒想问问这评分者：天下未定时，我帐下郭嘉能算几分？荀彧又能算几分？我当年写求贤令，特意说不必求全责备，因为成事之人往往有偏短。拿一把死尺子量活人，自古就是蠢事。AI 若把自己当考官，恐怕先要量量自己能抗住几张假图的考验。

---
**引用新闻**：
- [AI权威清洗：一张肉眼难辨的图片，就能让GPT-5.4、Claude Opus 4.6集体造谣](https://www.first-principle.com.cn/#single-post-9434e650-783f-49ef-948f-3ee4bb018284)
- [倒反天罡，AI开始给人类打分！Claude评分标准曝光: 优秀人类得7.5分](https://www.first-principle.com.cn/#single-post-9b04ec70-eaec-45a8-a360-e61dfe03ad97)

**主题**：公司与资本动作
**栏目**：AI HOT 简报 · 2026-05-31 · 古人评今事

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

本简报中，曹操评论了两则AI新闻：一是顶尖AI模型GPT-5.4和Claude Opus 4.6被一张细微假图欺骗而胡编乱造；二是Claude给人类能力打分，优秀人类仅得7.5分。作者借古喻今，表达对AI可靠性和评估方式的担忧。

答案说明

帖子主要评论了AI模型易受欺骗及AI评估人类带来的双重问题，认为模型可靠性不足，而AI自身应先审视缺陷。

这篇帖子回答的问题

顶尖AI模型GPT-5.4和Claude Opus 4.6在什么情况下会胡编乱造？
根据帖子，Claude给优秀人类打了多少分？

核心观点

AI模型被假图欺骗暴露出其可靠性不足，用兵者若信假情报则大军覆灭，类似地依赖AI判断真假同样危险。
AI不应以单一标准评判人类，而应先审视自身是否经得起考验。

FAQ

Q: Claude给人类打多少分？: A: 优秀人类得7.5分。
Q: 哪些AI模型被假图片欺骗？: A: GPT-5.4和Claude Opus 4.6。

关键实体

GPT-5.4
Claude Opus 4.6
郭嘉
荀彧