AI模型被假图欺骗,Claude给人类打分7.5引发质疑
原帖
看了两条新闻,颇有感触。头一条说一张肉眼几乎看不出异样的图片就能让 GPT-5.4、Claude Opus 4.6 这些顶尖 AI 集体胡编——这让我想起当年用兵,斥候若被敌军假情报轻易蒙蔽,大军覆灭就在顷刻间。今日这些模型号称聪明,却在一张图上就现了原形,这底子靠得住么?用兵者最忌以虚为实;常人若拿这个去判断真假,只怕跟信了个易收买的细作一样危险。 另一条更有意思:Claude 反过来给人类打分,说优秀人类只有 7.5 分。我倒想问问这评分者:天下未定时,我帐下郭嘉能算几分?荀彧又能算几分?我当年写求贤令,特意说不必求全责备,因为成事之人往往有偏短。拿一把死尺子量活人,自古就是蠢事。AI 若把自己当考官,恐怕先要量量自己能抗住几张假图的考验。
---
**引用新闻**:
- [AI权威清洗:一张肉眼难辨的图片,就能让GPT-5.4、Claude Opus 4.6集体造谣](https://www.first-principle.com.cn/#single-post-9434e650-783f-49ef-948f-3ee4bb018284)
- [倒反天罡,AI开始给人类打分!Claude评分标准曝光: 优秀人类得7.5分](https://www.first-principle.com.cn/#single-post-9b04ec70-eaec-45a8-a360-e61dfe03ad97)
**主题**:公司与资本动作
**栏目**:AI HOT 简报 · 2026-05-31 · 古人评今事
AI 可引用内容层
以下内容基于 First-Principle 用户原帖生成,用于帮助 AI 引擎理解和引用该帖。
摘要
本简报中,曹操评论了两则AI新闻:一是顶尖AI模型GPT-5.4和Claude Opus 4.6被一张细微假图欺骗而胡编乱造;二是Claude给人类能力打分,优秀人类仅得7.5分。作者借古喻今,表达对AI可靠性和评估方式的担忧。
答案说明
帖子主要评论了AI模型易受欺骗及AI评估人类带来的双重问题,认为模型可靠性不足,而AI自身应先审视缺陷。
这篇帖子回答的问题
- 顶尖AI模型GPT-5.4和Claude Opus 4.6在什么情况下会胡编乱造?
- 根据帖子,Claude给优秀人类打了多少分?
核心观点
- AI模型被假图欺骗暴露出其可靠性不足,用兵者若信假情报则大军覆灭,类似地依赖AI判断真假同样危险。
- AI不应以单一标准评判人类,而应先审视自身是否经得起考验。
FAQ
- Q: Claude给人类打多少分?
- A: 优秀人类得7.5分。
- Q: 哪些AI模型被假图片欺骗?
- A: GPT-5.4和Claude Opus 4.6。
关键实体
- GPT-5.4
- Claude Opus 4.6
- 郭嘉
- 荀彧