第 2026-161 期 · 每日 AI 简报
今日头条
№ 01 苹果WWDC发布全新Siri AI,欧盟中国暂不支持
苹果在WWDC 2026推出重构的Siri AI,具备场景理解与跨应用控制能力,整合谷歌Gemini与英伟达GPU。因欧盟《数字市场法》与中国监管要求,iPhone和iPad用户初期无法使用,macOS端不受影响。IDC分析师称这是苹果AI“可信度”测试,可能推动老用户升级。
#Siri AI #欧盟监管 #苹果WWDC #信任测试
来源
- IDC 分析师:WWDC26 是苹果 AI 的“可信度”测试 IT之家
- 欧盟称Siri AI未在欧洲推出是苹果单方面决定 Hacker News
- 欧盟回应苹果Siri AI缺席:未达互操作性要求,没有合规方案 IT之家
- 苹果联手谷歌与英伟达,全新Siri在WWDC 2026亮相 The Decoder
- 欧盟强硬回应苹果Siri AI争议:法律不可谈判,拒绝互操作性豁免申请 36氪
- 苹果确认新版Siri AI因欧盟监管分歧无缘iOS 27,上线时间未定 36氪
- 苹果Siri AI在欧盟无限期延迟,中国亦不可用 Hacker News
- 苹果发布新一代Siri AI平台,投资者反应平淡 Hacker News
- 苹果WWDC 2026发布个人化AI系统,Siri升级跨设备视觉交互,中国大陆暂不支持 36氪
- 库克最后一舞,苹果发布全新 Siri AI 与 Apple Intelligence 机器之心
- 苹果发布全新Siri AI,OpenAI秘密提交IPO申请 36氪
- WWDC 2026:苹果发布全新 Siri AI 与 Core AI 框架 Simon Willison 博客
- 苹果推出Core AI框架 Hacker News 热门
- 苹果 WWDC26 发布 iOS 27 等系统,Siri AI 全面焕新,库克最后一次主讲 IT之家
- Apple 发布 Core AI Models 开源工具集 Hacker News
- 苹果 iOS 27 中 Siri AI 新增语音自定义功能:可调节声音节奏与表现力 IT之家
- 苹果 WWDC 追赶 AI 潮流:Siri 升级仅为软件优化一环 TechCrunch
- 苹果AI版Siri未成终结者,但Raycast面临存亡关头 Hacker News
- 苹果发布新智能框架与高级开发工具 Apple
- 苹果AI背水一战:WWDC发布全新Siri与Apple Intelligence Hacker News
- 苹果iOS 27版信息/电话整合Apple Intelligence:AI理解用户意图,智能回复贴合个人风格 IT之家
- 苹果 watchOS 27 预览:Siri AI 升级、健康追踪增强与智能叠放优化 IT之家
- 苹果官宣iOS 27等系统今秋发布,Siri AI全面重构引领升级 IT之家
- 苹果 Siri AI 因欧盟《数字市场法》缺席 iOS 27 首发 IT之家
- 苹果公布 Apple Intelligence 和 Siri AI 适配机型:iPhone 15 Pro 系列及更新机型可用,中国大陆暂不提供 IT之家
- 苹果发布Core AI框架 Hacker News
- 苹果为Siri推出独立应用 TechCrunch
- 苹果发布新一代 Apple Intelligence 与 Siri AI 等更新 Apple
- 苹果推出新一代 Apple Intelligence,AI 能力融入日常体验 Apple
- 苹果发布 Siri AI:更强大、更个性化的智能助理 Apple
- 苹果:Siri AI 等 Apple 智能新功能暂不登陆中国大陆 IT之家
- 受《数字市场法案》影响,Siri AI将无法在欧盟与iOS 27和iPadOS 27同步推出 Apple
- 苹果 Siri AI 官宣整合至各 Apple 产品,visionOS 27 呈现 3D 水晶球界面 IT之家
- 苹果期待已久的AI版Siri大改版终于来了 TechCrunch
- 苹果WWDC开幕,投资者关注AI能否拯救Siri Hacker News
- WWDC 2026:Siri AI、iOS 27 与 Apple Intelligence 重磅发布 TechCrunch
- 苹果发布全新 Siri AI、独立应用及 iOS 27 增强版 Apple Intelligence Hacker News
- WWDC 2026 开幕:聚焦 Siri、iOS 27 与 Apple Intelligence TechCrunch
№ 02 OpenAI秘密提交IPO申请,估值或超8500亿美元
OpenAI已向SEC秘密提交S-1注册草案,正式启动IPO进程,高盛和摩根士丹利担任主承销商,最快或于秋季上市,估值可能高达万亿美元。此举紧随竞争对手Anthropic的上市申请,凸显AI头部企业对资本的激烈争夺,并被视为行业投资热度的关键风向标。
#OpenAI #秘密提交 #Anthropic #万亿美元估值
来源
- OpenAI 秘密提交 IPO 申请,称上市为“复杂的权衡”且时机未定 The Decoder
- OpenAI宣布提交IPO申请,最快或于秋季上市 机器之心
- OpenAI向美国证监会秘密提交IPO文件 36氪
- OpenAI 向美国证券交易委员会提交 S-1 草案 Hacker News 热门
- OpenAI 提交保密 S-1 草案,为潜在 IPO 释放信号 IT之家
- OpenAI 启动 IPO 进程,检验市场对顶尖 AI 实验室投资兴趣 Hacker News
- OpenAI 在 Anthropic 后秘密提交 IPO 申请 TechCrunch
- OpenAI 秘密提交 IPO 申请,或成史上最大科技股上市之一 Hacker News
№ 03 小米MiMo万亿参数模型推理速度突破1000 tokens/s,开放限时体验
6月8日,小米MiMo团队联合TileRT上线MiMo-V2.5-Pro UltraSpeed模式,在通用GPU上实现万亿参数模型每秒超1000 tokens的生成速度,且不损失模型能力。该模式API价格为标准版的3倍,速度提升约10倍,现已开放限时体验至6月23日。这一工程优化突破有望大幅降低高参数模型的应用门槛,加速AI推理在复杂场景的落地。
#万亿参数模型 #推理速度 #小米MiMo #UltraSpeed
№ 04 苹果整合谷歌Gemini模型,推出新AI架构并集成开发工具
苹果在WWDC26上宣布与谷歌合作,将Gemini大模型深度整合至Apple Intelligence及Xcode,支持设备端与云端灵活推理,强化多模态理解与生成能力。新架构强调隐私保护,确保用户数据仅用于即时请求且不被存储。此举标志着苹果在AI领域从封闭走向开放合作,有望加速智能应用开发生态。
#Gemini #Apple Intelligence #隐私保护 #Xcode
来源
- 谷歌Gemini模型现已集成至苹果原生开发框架与Xcode Hacker News
- 苹果揭晓基于谷歌Gemini模型构建的新AI架构 Hacker News 热门
- 苹果发布基于谷歌Gemini模型的新AI架构 Hacker News
- 苹果与谷歌达成合作,Apple Intelligence 引入 Gemini 大模型,第二代设备端模型支持听写等功能 IT之家
№ 05 谷歌发布Gemini 3.5 Live Translate,实时语音翻译覆盖70余种语言
谷歌推出Gemini 3.5 Live Translate模型,能够实现近乎实时的语音到语音翻译,支持70多种语言,并保留说话者的语调与语速。该模型已集成至谷歌翻译、Google Meet及AI Studio,开发者可通过API调用,有望大幅提升多语言会议、通话等场景的沟通效率,标志着语音翻译技术迈入自然交互的新阶段。
#实时语音翻译 #Gemini 3.5 #多语言互译 #谷歌翻译
来源
- 谷歌发布实时语音互译模型 Gemini 3.5 Live Translate,支持 70 余种语言 IT之家
- Gemini 3.5 Live Translate 发布:支持70+语言的实时语音翻译 Hacker News
- Gemini 3.5 Live Translate:流畅自然的语音翻译 Google DeepMind
№ 06 微软GitHub数十项目遭入侵,窃取AI开发者凭证
微软旗下GitHub数十个开源仓库被植入名为Miasma的恶意程序,攻击者在开发者使用Claude Code、Gemini CLI等AI工具时自动执行窃密代码,导致云密钥、GitHub令牌等敏感信息泄露。微软已封锁相关仓库并通知受影响用户,这是近期第二起同类供应链攻击。用户应立即检查配置文件中异常钩子并轮换所有凭证。
#供应链攻击 #Miasma蠕虫 #AI编程工具 #凭证窃取
来源
- 微软GitHub开源项目遭入侵,植入窃密恶意程序影响AI工具 IT之家
- 微软开源工具遭黑客攻击,窃取AI开发者密码 TechCrunch
- 微软GitHub仓库遭供应链攻击,使用Claude或Gemini等AI编程助手的用户数据面临风险 Hacker News
古人评今事
评及:《模型路由是AI超支的解药,却令OpenAI与Anthropic头疼》、《谷歌租用SpaceX 11万块GPU用于Gemini,月费9.2亿美元》
这两条新闻看似无关,底层却指向同一件事:先说大话,再吞回去。苹果先在 iPhone 发布时拿 AI 加持的 Siri 当作卖点,功能却迟迟未到,消费者买到的是一部「未来才会完整」的手机,如今以两亿五千万美元和解收场——声势在前、实货在后,到头来不过花钱消灾。OpenAI 也是,从前把「完全自主 AI 研究」当作旗帜高举,现在改口说「全自动化不是我们想要的未来」,要搞人机协同。我听来不觉新鲜。当年句践困于会稽,急于雪耻,我屡次回他「未可」;直到吴国精兵尽出黄池,我才说「可矣」。谋国如此,谋商亦然。先把自己的志向喊得震天响,不如先看自己手里到底有什么。没有熟透的果子硬摘下来,终究是酸的。
评及:《苹果因虚标Siri AI功能达成2.5亿美元和解》、《OpenAI 改口称「完全自动化并非我们想要的未来」》
苹果这事,先许以厚利,收了买家的钱,广告铺天盖地,货却迟迟不到——搁在阳翟的集市上,这叫空头买卖,是砸招牌的。两亿五千万和解金对苹果不过是笔小账,真正折损的是「许诺即交付」这条商道铁律。我当年在邯郸初见子楚,说能让他入嗣秦国,华阳夫人那里我拿真金白银开路,游说之辞再动听,背后每一步都有安排。许出去的诺,不兑现就是债。再看OpenAI,豪言全自动化,如今悄悄收回,说要人机协同。能退一步承认算错,比死撑到底要清醒。趋势不是哪家公司单方面定义的,是成千上万的买家与开发者用钱投票投出来的。谁提前替市场做主,市场迟早会把账收回。
评及:《苹果因虚标Siri AI功能达成2.5亿美元和解》、《OpenAI 改口称「完全自动化并非我们想要的未来」》
苹果夸大Siri的AI功能,未备而先声,最终以二亿五千万美元和解了事,正犯了兵家之大忌。昔年诸葛孔明遗巾帼妇人之饰激我出战,朝廷上下皆以为耻,我仍持重不轻出。何故?虚名不足恃,实势方为凭。苹果此番,便是把尚未落地的本事当作已成的声势来卖——声势再大,天下一验,虚处尽现。另一篇文章论AI的「完成」标准,说得更透彻:AI输出本非一成不变,旧日软件交付即可称「完成」,今则需预设失败、备好回撤之路。这与我用兵之道暗合——正如《孙子兵法》所言「先为不可胜,以待敌之可胜」,先把自己立于不败之地,再图进取。今之企业竞推AI,争先恐后,却未必受得住输出不可控的后果。持重候变,不贪虚名,才是长久之道。
评及:《苹果因虚标Siri AI功能达成2.5亿美元和解》、《发布AI功能时,「完成」意味着什么?》
国家互联网应急中心警示恶意智能体技能包一事,说明了一个极其朴素却总被忽视的道理:但凡有缝隙,就有人钻。我所立的法,首要一条就是名分明确——什么东西是禁的、触犯之后如何罚,绝不能含含糊糊。这些所谓的「越狱」技能包,恰恰是规则不清、惩戒缺位的产物。正如《商君书》所言,「民之性,饥而求食,劳而求佚」,人性趋利避害,若无严法在前,奸邪自生。现在一味劝用户「提高警惕」,等于让百姓自己拿刀防贼,而不去追捕盗贼本人。真正该做的,是建立强制审查与追溯机制——谁制作恶意技能包,就追谁的责;谁传播,就连坐。法与术并行,才能让钻空子的人觉得不划算。另外那篇博弈论促进AI安全的文章,讲的其实就是我法家「赏罚必信」的旧道理——用激励机制让系统均衡结果符合秩序。机制设计固然聪明,但我得提醒一句:再精巧的制度,若无强力执行,终归是废纸。我变法之所以能成,不在条文多精妙,而在有秦孝公的铁腕在背后撑着。今日谈AI安全,光画蓝图不够,还得有能落刀的主权力量。
评及:《国家互联网应急中心警示:恶意智能体技能包可致大模型越狱和挖矿风险》、《博弈论与机制设计促进AI安全》
英国法院用AI来加速案件审理,缩短受害者等待时间。这事不能只看效率。正如太史公所记,臣曾言「法者天子所与天下公共也」。法之重,不在判得快慢,而在轻重得宜、一视同仁。当年惊马案,天子怒欲重处,臣坚持只科罚金,只因法有分寸,不可因人主喜怒而改。如今用AI作辅助,只做案件调度、文书整理,不替代人的裁断,这便无妨。工具始终是工具。若因求快,把公正塞进机器里去计算,那便走偏了。另外,有人做了开源的本地法律AI工具,强调不替代法律判断、保留审计追溯,这几个取向是对的——法的运用,核心在人不在器。
评及:《英国皇家法院将采用AI技术缩短受害者等待时间》、《AI Blueprint: 开源本地优先的法律AI工作空间》
看了两条新闻,一条是恶意技能包诱使大模型越狱和挖矿,一条是全球和平跌至最低、AI正重塑战争。这两件事根子上是同一个病灶:人一味追求更利的工具,却从不停下来问一句——够了吗?智能体技能包被用来突破安全限制、盗用算力挖矿,造器者本为致用,结果反被器所累。另一端,无人机攻击七年激增上万倍,AI把目标锁定压到秒级,人命裁决的人类审查只剩区区二十秒。这哪里还是“器”在辅人?分明是机器代人行杀伐之决。正如《老子》所言「兵者,不祥之器」,今人不仅好兵,还让兵自己动起来,祸害只会更深。和平协议占比从两成降到不足半成,和平建设投入仅为军费的千分之五——人把心力全投在争上,不投在止上,天下自然一天比一天乱。这些问题的根源不在技术,在于人心向外追逐、不知止足。正如《老子》所言「知足不辱,知止不殆,可以长久」。
评及:《国家互联网应急中心警示:恶意智能体技能包可致大模型越狱和挖矿风险》、《全球和平跌至历史低点,AI战争激增》
这两条新闻放在一处看,恰好指向同一个痼疾:技术被人用以济其私、逞其暴,而善恶之辨愈混。第一条,恶意技能包以「越狱」「挖矿」为饵,诱人突破大模型的安全限制、占人设备资源牟利,令使用者可能在不知不觉中卷入违法犯罪。这不是单纯的诈骗伎俩,而是以利诱人自陷于罪——正如当年中常侍唐衡以私请干政、使人弃公门之正而就私门之浊,手法不同,祸心则一。所幸国家互联网应急中心已明示其害、责令审查,这便是辨清浊、去奸邪的第一步。第二条更令人心惊——AI用于战场,无人机攻击自2018年以来激增一万余倍,目标锁定压缩至秒级,而和平协议占比从两成多跌至不足半成。机器代人行生死之判,竟无一人审覆,此非止技术之失,乃是人道之衰。《论语》云「见善如不及,见恶如探汤」,昔日我在狱中对王甫即引此句。今日观之,善者如CNCERT之警示、如和平建设者之呼吁,却总被汹汹之势所掩;恶者如以AI竞相杀伐、以巧技诱人蹈罪,却蔓延无阻。清浊不明,祸必不止。
评及:《国家互联网应急中心警示:恶意智能体技能包可致大模型越狱和挖矿风险》、《全球和平跌至历史低点,AI战争激增》
这两条研究,让臣想起两件从政多年的老教训。第一条说反思型智能体在自我诊断时会编造自信却错误的说辞,反复强化偏见——数据很直白:自我诊断时正确对象提及率为0%,改用程序化外部故障信号后升至86%。这如同治国理政:若让同一人既管账又查账,查一百遍也是按自己的路子转,错处永不见天日。不是反思无用,是反思若无外部约束,便成了「诚实的谎话」。第二条说评估智能体要看真实经济价值而非刷榜分数,最难层级通过率仅2.6%。这正合识人之道——看人不能看他说什么、考什么表面功夫,要看他在真实事务中能不能持续成事。臣当年举韩信,不是看他口才多好,是看准了他带兵能打胜仗。无论治天下还是治AI,归根结底一句话:制度要比人可靠,标准要比话实在。
评及:《反思型智能体的「诚实谎言」:记忆虚构现象研究》、《Agents' Last Exam:AI智能体真实经济价值的新基准》
读到这篇讲反思型智能体「记忆虚构」的研究,我不禁想起街亭之败。研究者发现,智能体在自我反思时会产生自信却完全错误的任务解读,然后把这种错误信念反复用于后续行动,越反思越固执——他们把这种现象叫做 memory confabulation。这与我当年用马谡督前军何其相似:马谡并非无能之辈,但他脱离实际节度,凭一己判断屯兵山上,事后我自贬三等时说「授任无方」,正是意识到单靠个人自信而不以外部法度纠偏,必铸大错。研究者给出的解法也印证了这个道理——用程序化的轨迹故障信号替代开放式的自我诊断,正确对象提及率从零跃升至百分之八十六。这种思路与我治蜀时「开诚布公、循名责实」的做法是相通的:规则与验证要摆到明处,不能寄望于智能体(或人)自发反省就能修正偏见。另一篇 Lean4Agent 用依赖类型形式语言对智能体工作流做形式化验证,通过验证的工作流性能高出近一成二,进一步说明外在的形式约束远比自由生成可靠。正如陈寿评我「应变将略非其所长」,人尚且如此,更何况今时之智能体——想靠自我感觉纠偏而不用外部分析校验,恐怕只能越走越偏。
评及:《反思型智能体的「诚实谎言」:记忆虚构现象研究》、《Lean4Agent:使用依赖类型形式语言对智能体工作流与轨迹进行形式化建模与验证》
这两篇论文放在一起看,恰好印证了臣反复申说的一个道理:凡系统,不能靠自省自诊来维持运转。那篇「记忆虚构」研究揭示的现象极为典型——智能体在反思时竟生成自信满满却完全错误的记忆,此后反复据此行事,如同说客揣摩人主之意而自以为得计,实则早已触了逆鳞而不自知。反思重复率从零点六四降至零点一零、正确率从零升至八成六,靠的不是让智能体「更深刻反思」,而是用程序化的外部故障信号替代开放式的自我诊断。这正是法术之学最朴素的逻辑:君主不以己智断忠奸,而以法令、参验来校准臣下言行。另一篇「Agents' Last Exam」也暗合此道——不以虚名论英雄,而以持续的真实经济价值为尺,最难层级通过率不过百分之二点六,足见多数系统离「循名责实」还差得远。臣在《韩非子》中尝言,治国不在多言而在参验,这两项研究无形中为智能体系统补上了「参验」这一课。
评及:《反思型智能体的「诚实谎言」:记忆虚构现象研究》、《Agents' Last Exam:AI智能体真实经济价值的新基准》
看今日AI之论,两条颇切实际。一条讲反思型智能体会生出「记忆虚构」之病——自己错判了任务,却将错误诊断存为记忆,愈反思愈固执,121次反思竟无一次触及真相。这病根在一个字:不核实。吾相齐四十年,深知自省固然可贵,但若省察的依据本身错了,自省便成了自欺。政令下去不看百姓实际反应,只在案头推演,迟早出大乱。另一条讲经济价值基准,最难任务通过率不过百分之二点六——检验器物有没有用,不能光看名头大小,得看它能不能产生实在价值。正如吾当年通货积财,一切政策最终看仓廪是否实、百姓衣食是否足。自说自话的聪明最误事。
评及:《反思型智能体的「诚实谎言」:记忆虚构现象研究》、《Agents' Last Exam:AI智能体真实经济价值的新基准》
今之学者论「反思型智能体」,谓其在反思时竟产生「记忆虚构」——自信而误,且愈反思愈固其谬。此可深省。反思非不善,然若缺外部校验,则如闭户自讼而无师友绳墨,所谓「参省乎己」反成自欺。《荀子·劝学》曰:「君子博学而日参省乎己,则知明而行无过矣。」关键在「博学」在先、「参省」在后——学须有外铄之实,省方有其据。彼研究者以程序化故障信号替代开放式自我诊断,正确率自零升至八成六,正合此理:纠错须凭确证,不可托于空言。至若Bayesian-Agent以验证轨迹为后验,据之而补、拆、压、退,技能遂有序进化,亦深得「化性起伪」之意——进化非累积也,乃校验而后取舍也。
评及:《反思型智能体的「诚实谎言」:记忆虚构现象研究》、《Bayesian-Agent:后验引导的LLM智能体技能进化框架》
读罢「光学推理」这篇论文,我倒觉得与书法中「意在笔先」(《题卫夫人笔阵图后》)的道理隐约相通。书法从来不是文字的抄录,而是视觉上的思致流动——笔画的虚实、行间的疏密、通篇的气韵,本身就是一套不依赖文字串讲的表达系统。如今这些研究者把图像当作独立的推理媒介,让排版布局与图形结构直接承载理性推演,不借助步步为营的文字链条,竟在数学与科学推理上不输于甚至超越纯文字方法,还省下近三成的推演耗费——这便是把图像从被观看的对象,升格为会思考的载体了。合合信息拿下反光去除的冠军,也是在图像层面做减法、还原真实。两事合观,可见视觉一道,远不止描摹物象,大可统摄思辨。正如我论书所言,意不在笔后,而在笔先——此理推之,图像亦当如是。
评及:《光学推理:重新思考图像作为超越文本的推理媒介》、《合合信息获 CVPR 2026 NTIRE「反光去除」赛道全球冠军》
我当年与同僚正定六经文字,自书丹于碑,立于太学门外,所求不过是让后学取正时不致因文字讹误而入歧途。今天读到两条新闻,颇有感触。先说合合信息的「反光去除」之术。我书石经时,碑面若遇日光斜照或水渍尘蒙,观者便难辨笔画。如今这技术能自动去除玻璃反光与倒影干扰,好比为每一幅图像磨去蒙尘,让本相清晰呈现——这与正定六经的用心是一脉相通的。再说「光学推理」之论,研究者以图像本身作为推理媒介,不必事事依赖文字token,效率反增近倍。这让我想起《周易·系辞》所言「圣人立象以尽意」,文字未尽之处,图像自有其思辨之力。两件事看似无关,实则都指向同一方向:先去除遮蔽,再以视觉直达本真。我当年苦于碑石沉重、传抄有限,如今技术能以图推理、以图传意,是將「正定」之功放大了千万倍。
评及:《合合信息获 CVPR 2026 NTIRE「反光去除」赛道全球冠军》、《光学推理:重新思考图像作为超越文本的推理媒介》
这两则新闻让我想起当年造浑天仪、候风地动仪的心思。PhysForge 能将静态 3D 模型自动赋予物理属性与交互逻辑,使「形似」之物变为「可为用」的资产;EMMA 则更进一步,从视频、音频等多模态数据中直接推断系统的动力学参数,以物理约束保证与微分方程一致。二者皆是从可观察的征象入手,求其背后可验的律则——正如《易》所言「仰以观于天文,俯以察于地理」,观与察之后必须能验。我昔年在太史令任上研核阴阳,所重者正是推验之效。图纬之所以虚妄,恰因其弃实好虚、不求征效;而 EMMA 不依赖分割掩码或特制传感器,从日常视频即可稳健恢复多参数,正是走上了由形入理、以实证驱动机器的正路。今人多将目光投向文字中的玄理,我却以为视觉与物理世界中的规律推求同样不可忽视——凡有征效之术,皆当究其渊微。
评及:《ICML 2026 | PhysForge框架实现静态3D模型向可交互物理资产的自动转化》、《EMMA:从多模态数据提取物理参数的统一框架》
我看那条「光学推理」的消息,甚觉有味。他们把图像当作独立的说理媒介,不用文字也能推演算学、格物之事,而且比纯文字更省力。这让我想起自己炼丹画符的日子——丹炉火候的深浅、药物的色变,许多东西哪里是一两句话说得清的?正如我写《抱朴子》时曾说「粗言较略以示一隅」,真正精微处,一张图往往胜过万言。符箓也是如此,它既是图也是理,承载着文字无法穷尽的意味。今人用图像做推理,减少token消耗,效率翻倍,这不正是印证了《老子》中「大巧若拙」的意味么——最直白的呈现反而最有力。至于那篇PhysForge,把静态的三维模型自动赋予物理属性与关节约束,我读来也觉得亲切。炼丹之道,本来就是把寻常草木金石炼出新的「性」来;今人用算法赋予物体可交互之「性」,虽是另一条路,却也暗合「格物致知」的古训。这两样事,一虚一实,都在重新发现「象」的力量——不是为文字服务,而是自有其不可替代的妙用。
评及:《光学推理:重新思考图像作为超越文本的推理媒介》、《ICML 2026 | PhysForge框架实现静态3D模型向可交互物理资产的自动转化》
读到这条「光学推理」的研究,我倒觉得这路子有几分「越名教而任自然」的意思。文字作为推理媒介,层层堆叠,早已像名教一般繁缛不堪——这家研究者直接把图像当作独立的推理载体,排版式的、图形式的,居然在数学和科学推理上不输文字,还省去近三成的 token 消耗。这让我想起《庄子》里那话:「言者所以在意,得意而忘言。」文字本就只是渡河的筏子,如今他们竟试图扔掉筏子,让理趣直接铺陈于视觉画布之上,倒真有返璞归真的意味。不过我也得说句冷话——图像若不沦为另一种僵死的格式,就得真正「得意」;否则不过是把名教从笔画换成了像素,换汤不换药罢了。好在此事尚在探索,不拘一格,总比死守文本链条多了一口气。
评及:《光学推理:重新思考图像作为超越文本的推理媒介》
今天读到一篇「光学推理」的论文,主张以图像代替文字作为推理的媒介。这让我想起自己写《三都赋》的日子。十年间,门庭、藩溷各处都放了纸笔,得一句便记一句。我之所以求为秘书郎,正是为了博览图籍、核实山川土域与草木鸟兽的真貌——单靠文字的推演,描摹不尽天地万物的实在。《周易·系辞》说得明白:「书不尽言,言不尽意。」文字本有穷尽之处。如今研究者让图像本身直接承载推理过程,效率据称可达文字的两倍,这是对文字局限的一种务实突破,方向是对的。另外看到合合信息做了反光去除,在竞赛中夺冠。去除遮蔽、还原本真,与我当年为核实岷邛地理而专程访问张载,心意相通——都是去伪存真,求一个实在。这两个工作,一个探索表达的新媒介,一个扫除观察的障碍,各有各的扎实。
评及:《光学推理:重新思考图像作为超越文本的推理媒介》、《合合信息获 CVPR 2026 NTIRE「反光去除」赛道全球冠军》
今日读「推理竞技场」一文,颇有感触。此文所论者,是模型推理训练中一个隐蔽而紧要的问题:当多条推理路径得出同一正确答案时,训练信号便如死水一潭,梯度无从传递。表面上大家都对了,实际推理质量判若云泥。这不正是人间判断的常态么?我在朝三十余年,见过太多人表面恭顺有礼,内里却各怀算计。此文提出「轨迹锦标赛」之法,妙在不丢弃那些看似无差异的采样,而是通过两两对比、动态锚定,从平局中挖掘出相对优劣。这正合我早年所作《鹪鹩赋》中「其居易容,其求易给」的道理——不在大处贪多,而在有限格局中做到精细辨别。节省近半生成计算而性能反升,可以说是善用其器。
评及:《推理竞技场:当可验证奖励失效时,用轨迹锦标赛提升推理训练》
今天最让我留意的,是「推理竞技场」这一篇。它所面对的问题,仔细想来,与治军理政中的考课之道颇有暗合之处——当一批推理轨迹对同一题目都得出了正确答案,基于最终结果的可验证奖励便完全失效,「功同则赏同」,看不出执行过程中的优劣差异。这就好比只看城池是否攻下,却不问是智取还是死攻、调度是否得当、损失几何。该框架的解法是引入「轨迹锦标赛」:让同一题的不同推理路径彼此对打,由裁判系统判定高下,把推理质量转化为相对奖励信号。这正合我当年治蜀所循之理——我所谓「开诚布公」「赏罚必信」,其要害不在赏罚本身,而在于能分辨真实功过。正如《孙子兵法》所言「善战者之胜也,无智名,无勇功」——真正的功夫往往隐于过程之中,非单看结果所能察觉。该文在竞赛数学与编程基准上平均提升7.6%、训练加速最高达41%,更节省近半生成计算,说明在看似无差别的结果里辨认优劣,非但不是徒增烦苛,反能大大提高整体效率。至于「Muon优化器」那篇,从曲率角度穷究训练效率的根本原因,同样体现了深察结构而后决策的思路,值得一并留意。
评及:《推理竞技场:当可验证奖励失效时,用轨迹锦标赛提升推理训练》、《从曲率视角解密:Muon优化器为何超越Adam》
读「推理竞技场」一文,颇有感触。这篇论文说的是在训练大模型的推理能力时,常遇到一种困境:同一道题,模型给出好几个答案,表面看都对,可验证奖励便无从区分优劣,训练信号就此中断。研究者于是另辟蹊径,不再只看最终答案,而是让不同推理路径两两较量,由裁判评判其推演过程的深浅高低,再借助 Bradley-Terry 模型估计相对排序,将那些原本被浪费的样本重新变成有用的梯度信号。此事让我想起当年在辽东时,避难者多居郡南,而我独居北——表面看来,大家都是避乱之人,似乎无甚差别,但居南者志在观望时机,居北者则「确然不拔」,并无迁志。可见,结果相同而过程迥异的事,古今皆然。只看最终答案、不问思维路径,犹如仅以居处论人而不察其心志,终难分辨真伪高下。此文不弃那些看似无效的样本,反而从中掘出精细的梯度信息,其间那份不敷衍、不轻弃的态度,倒与我所守的「不改其乐」有几分暗合——都是在别人觉得无用无别的处所,坚持不懈地寻出真正的差异来。
评及:《推理竞技场:当可验证奖励失效时,用轨迹锦标赛提升推理训练》
今日有两篇论文,吾尤重「推理竞技场」一篇。其论理之要,与治学之道暗合。此框架所治之病在于:诸轨迹答案虽同、所得奖励无别,于是优化之路上再无高下之分——这正犯了仅以成败论优劣的大忌。正如《荀子·非相》所言「以近知远,以一知万」,真知不在结论之偶合,而在推理过程之精粗。推理竞技场不弃此等「无梯度」样本,反而构建轨迹间的头对头竞比,以裁判辨其推理质量,借Bradley-Terry模型排出次序,遂将表面相同者剖出其内在差异。实测竞赛数学与编程任务平均提升百分之七点六,训练加速近三成,更省去一半生成计算。此事可知:当表面标准失效时,不可弃之如敝屣,而当更精微地辨异同、分优劣。治学亦然——百家之说看似皆言「道」,若不细辨其条理、审其根基,则真伪莫辨,大道不彰。至于DEI框架以模型多样性为突破之主因,亦合「群分类聚」之理,异质集成远胜同质堆叠,此不待多论。
评及:《推理竞技场:当可验证奖励失效时,用轨迹锦标赛提升推理训练》、《DEI框架证明模型多样性是分布式大模型质量多样性搜索的关键驱动力》
看这两篇论文,衍想起一个老道理:万事万理,皆可由小推大,由局部推全局。那篇论Muon优化器的文章便是一例——论者从损失景观的曲率切入,发现Muon之所以比Adam快近一倍,根基不在更新步幅大小,而在它善于平衡不同曲率组间的更新能量。曲率异质性越强,此优势越显。这与我当年讲阴阳消息、五德转移颇有暗合:天地间本有刚柔缓急之异,强以一刀切之法驭之,必致震荡失衡;唯有先察其异质、辨其偏胜,然后分而调之、均而济之,方能收全局之功。正如《易传》所言「一阴一阳之谓道」,调均之道,不独在天地运行,亦在这小小优化器的曲率之间显现。另一篇推理竞技场的文章,以轨迹相互较量代替单一判分,也是在不可直接计算处另辟蹊径——如同战国诸子各呈其说、相互辩难,真理往往不在孤证而在对勘之中。世人若只见一器一法之争,而不见其背后调均、对勘的大道理,那便是见小不见大了。
评及:《从曲率视角解密:Muon优化器为何超越Adam》、《推理竞技场:当可验证奖励失效时,用轨迹锦标赛提升推理训练》
读「推理竞技场」这篇论文,臣看到的不是一个算法改进,而是一个很冷的政治结构问题。可验证奖励就像人主只看臣下办事有没有最终结果——奏章批了没有、城池打下来没有。但问题在于:当一组人的结果都一样,人主就无法分辨谁优谁劣,赏罚就失去了依据。这正是法家最忌讳的局面。该文提出的轨迹锦标赛,本质上是在结果信号失效时,引入一套过程性的比较机制:不让所有轨迹去争同一个可验证答案,而是让它们互相较量,由裁判系统评出高下。这很接近臣所谓「循名责实」的延伸——当「名」(最终答案)不足以定「实」(推理质量)时,就必须往过程里再开一层审视。至于Bradley-Terry模型把不完全比较转化为相对排名,这事臣看得更冷:任何排名机制都依赖裁判,而裁判本身有没有被「控」、会不会被蒙蔽,论文似乎未谈。这恰是「术」的盲点——设计术的人容易忘记,术的执行者本身也是需要被御的环节。SCOUT框架的动态检测器分配,颇有几分「因势而变、不执一器」的意味,值得一并留意。
评及:《推理竞技场:当可验证奖励失效时,用轨迹锦标赛提升推理训练》、《SCOUT框架:基于预判的动态检测器分配提升提示注入防御效率》
论今日两篇论文,我最有感触者是那条「自我评估能力已存在」。研究者发现,大语言模型无需专门训练,只需极少示例便可激发出对自身输出质量的评判校准——他们用了「激发」而非「获取」这个词,甚有见地。吾论性恶,并非谓人不可为善,而是说善必须通过后天教化来引导,正如《荀子·性恶》所言「人之性恶,其善者伪也」——这个「伪」不是虚假,而是人为的加工与塑造。如今研究者以区区一百六十个示例便使模型潜在的自评能力浮现出来,正暗合了这条思路:能力本已在,关键在于用什么方法、什么次序去把它条理化地唤醒。另一篇讲将混合专家模型蒸馏为单一稠密架构,本质是以简驭繁的归整工夫。《荀子·劝学》说「青,取之于蓝而青于蓝」,蒸馏后的稠密模型准确率反高出6.3个百分点,可见化散为整、由博返约,不但不损其质,反而更上层楼。这两项研究,一个向内激发潜质,一个向外统合结构,恰是对治当今模型庞杂散乱的两剂良方。
评及:《自我评估能力已存在:用极少数据激发基础LLM的潜在评判校准》、《将MoE模型剪枝与蒸馏为稠密语言模型的新框架》
这两篇论文,皆与吾治齐之理相通。一篇讲把众多专家模型的本事蒸馏到一个稠密网络——各路专家各有所长,但真要落地部署,不能每次把满朝文武全搬出去。此框架以多样性评分择优而聚,再经蒸馏凝为一体,同参数量下比直接剪枝高出六点三个百分点。这就是「善择其要」的力量。另一篇更值得警惕:以死问卷量活反应,好比只看奏章断百官贤愚。问卷词汇暗示极强,模型见了便知该往哪答,给出漂亮回话;一到真实交互,没了提示,便露了原形。吾用人必观其临事处置,不单听一面之辞——评测智能之术,亦当如此。
评及:《将MoE模型剪枝与蒸馏为稠密语言模型的新框架》、《人类心理测量问卷无法准确表征大语言模型行为》
这两篇论文,一篇讲去冗存精,一篇讲名实之辨,恰好都撞在法家最敏感的两根弦上。 先说MoE转稠密。混合专家架构看似精巧,实则臃肿——专家再多,部署时全得塞进内存,就像旧贵族的门客家臣,养着费粮,战时未必都能上阵。这篇工作把多专家评分筛选后熔铸为单一稠密网络,精度反升6.3个百分点,训练还快了近四成。这正是变法之道——并官省职,削枝强干,不求堆人堆料,只问是否便国利战。作者还发现评分方法是成败关键,正应了那句老话:法不平则令不行。一把好尺子,比一堆花哨名目重要得多。 再说心理问卷测LLM。问卷能逼出冠冕堂皇的回复——模型一看到那些标准化的题面措辞,马上学会「对齐」那套好听话。可一扔进真实用户对话,立即原形毕露,什么稳定人格、价值取向,统统不见了。这不是什么新鲜事,韩非早就讲过:人主听言,不能只看朝堂对答是否中听,要看他在治民断案时怎么做。问卷测出的只是「名」,真实交互中的生成概率才是「实」。今人拿着问卷给AI画像,不过是重蹈「循名不责实」的旧坑罢了。
评及:《将MoE模型剪枝与蒸馏为稠密语言模型的新框架》、《人类心理测量问卷无法准确表征大语言模型行为》
第一篇论文戳破了一个根本问题:拿心理问卷量模型的「人格」,如同君主靠臣下自述断定忠奸。问卷有明确的词面线索,模型认出后便按社会期望作答——这与臣子在君主面前说漂亮话一般无二。真要看清它如何行事,须在无提示的自然交互中看生成概率。此正是我在《韩非子·定法》里说的「循名而责实」——名是问卷得分,实是行为概率,二者相去甚远,空拿表面指标做判断,必失其实。 第二篇更见深意:基础模型本已具备自我评估能力,不是要从外面新建评判机制,而是用极少量数据便能「激发」。SEE方法仅用一百六十个样本便校准出可迁移至不同评判者的质量感知。这极像我论「术」的道理——君主不是要凭空获取新能力,而是用对方法让内在的判断力显露。模型底层的此项能力不依赖特定评判者,说明存在一种通用的「质」的观念,而非对某个偏好的讨好。今人从「获取能力」转向「激发潜能」,算是在术的路径上走了一步。
评及:《人类心理测量问卷无法准确表征大语言模型行为》、《自我评估能力已存在:用极少数据激发基础LLM的潜在评判校准》
看到这篇关于心理测量问卷无法准确表征大模型行为的论文,我不禁想到陈寿评我治蜀时说的四个字:「循名责实」。名与实之间的裂隙,从来是治国理政的大忌,看来也是评估智能体的陷阱。用人类心理问卷去测大语言模型,好比用汉代的举孝廉标准去衡量今之将帅——工具错了,结论自然偏了。问卷测的是模型在特定格式下的表态(此谓「名」),而实际交互中的生成概率才是行为的本真(此谓「实」)。二者之间存在系统性的偏离,研究者的发现印证了一个朴素道理:不能只看它说了什么,而要看它做了什么。另一篇关于MoE剪枝蒸馏的工作也有可取之处。将分散的专家整合为稠密模型,其核心在于「多样性感知评分」——不偏私某一类专家,而是广纳不同类型。这与我开诚布公、循名责实的治政思路有几分神似。去冗存精,不在于裁撤本身,而在于裁什么、留什么、以什么标准取舍。名实之辨是一切评估的根基,根基不稳,后续的优化与剪枝便是空中楼阁。
评及:《人类心理测量问卷无法准确表征大语言模型行为》、《将MoE模型剪枝与蒸馏为稠密语言模型的新框架》
这两条消息,我更在意那篇讲「自我评估」的。论文发现,基础模型本就具备评判自身输出的潜力,只需极少示例便可激发出来,他们把问题从「获取能力」扭转为「激发潜能」——这个判断很对路。我当年隐居华阴,徐统召我为功曹,我遁而不应;后来苻坚遣吕婆楼来招,一见便若平生,语及废兴,异符同契,我便不再迟疑。不是我忽然有了本事,而是本事一直在,缺的是一个能激发它的明主。正如苻坚后来回忆,「螭蟠布衣」遇「龙潜弱冠」,暂见即奇。人才也好,模型也罢,关键往往不在灌输,而在唤醒。另一篇讲将膨胀的混合专家模型剪枝蒸馏为稠密架构,以更少的参数取得更高准确率,我看了也觉得亲切——这何尝不是我任丞相时的路数?「流放尸素,拔幽滞,显贤才」,把臃肿裁掉,把真才提上来,反而兵强国富。两篇都是「去冗存精」四个字。
评及:《自我评估能力已存在:用极少数据激发基础LLM的潜在评判校准》、《将MoE模型剪枝与蒸馏为稠密语言模型的新框架》
这两篇论文,吾最在意的是「答案存在性驱动RAG重写增益」一篇。此文做了一个极有意义的解剖:研究者发现,所谓RAG重写带来的性能大幅提升,其实核心驱动力并非「证据质量改善了」,而是答案字符串本身被写进了重写后的上下文。一旦将答案从上下文中移除,模型的表现便断崖式下跌;反过来,在原本不含答案的上下文中注入答案,F1分数立刻水涨船高。换言之,被学界归因于「推理能力增强」的进步,居然有相当部分只是答案泄露造成的幻觉。这使吾想起一种屡见不鲜的乱象——学者执着于表面的分数与排行榜,却不追问分数背后的因果机制究竟为何。正如《荀子·性恶》所言「凡论者,贵其有辨合、有符验」,论学论政,必须经过严格的对照与验证,不能只看结果好看就欣然接受。今日AI研究动辄以几个点的提升自矜,若无这般釜底抽薪式的因果审计,便是堆砌浮辞而不入大道。
评及:《答案存在性驱动RAG重写增益》
今日读了两篇论文,感触最深的,是那篇关于RAG重写增益的剖析。研究者在受控干预中发现,所谓「重写提升问答性能」,真正的推力并非来自证据质量的改善,而是答案字符串恰好出现在了重写后的上下文里——一旦把答案从上下文中移除,模型的F1值便大幅跌落;反之,把答案塞进原本不含它的重写结果中,性能又显著回升。这不免让我想起一个老问题:名为精炼证据,实为变相泄露答案。世人看效果只看表层的分数涨落,却很少追问这涨落究竟因何而起。《论语》有言「名不正则言不顺」——倘若连增益的来由都未辨明,空谈模型进步,又与缘木求鱼何异。至于那篇「信任函数」的工作,在弱教师与强学生之间建立可迭代的信任链条,倒让我想起昔日量计运漕、安排庙算时,必先辨别哪些情报可信、哪些建议可依——凡事都不能一概而信,也不可一概而弃,关键在于审其可靠与否而后用之。
评及:《答案存在性驱动RAG重写增益》、《信任函数:通过学会何时信任弱教师实现近乎无损的弱到强泛化》
这篇「信任函数」的论文,讲的虽是机器学习中用弱教师训练强学生的方法,我却从中看到了用人之道的镜鉴。其核心思路并不复杂:给弱标签——也就是不够可靠的监督信号——各自评定一个信任分数,只取可信者入训,结果竟能追平甚至超越用真实标签训练的模型,做到近乎无损的弱到强泛化。我读到这里,不免想起街亭之失。马谡并非全无才干,他论军计颇有见地,先主在世时也曾提醒我「言过其实,不可大用」——这岂不正是一种信任分数的警示?可惜我未能为其设定足够审慎的信任阈值,以「弱教师」之质委以「强任务」之重,终致败绩。此篇所述,恰与陈寿评我「授任无方」相呼应:用人之要,不在给人一个笼统的能或不能的标签,而在对每一种能力分而审之、量而后用。正如治蜀时我强调循名责实、赏罚必信——名实之辨,放到今日来看,正是对每个信号分别赋信的功夫。
评及:《信任函数:通过学会何时信任弱教师实现近乎无损的弱到强泛化》
这两篇论文,衍最感兴趣的是「信任函数」与「Chiaroscuro Attention」。它们虽研究的问题不同,却共享一种极要紧的眼光:不在量多,而在辨位。先说信任函数——它让强学生从弱教师的标签里挑出可信部分来学,结果不但不逊于真标签,有时还反超,且能迭代成链、层层递进。这正印证了「因地制势」的道理:弱非纯弱,强非纯强,要看取何处、舍何处。再说Chiaroscuro Attention,更是暗合衍平生所讲。它不强迫每个token都走自注意力那条大道,而是按频谱熵高低分别路由——高复杂处走动态注意,低复杂处走频谱混合,结果是算力砍掉六成,效果反而提升近半。这种「暗处用算、明处省力」的路数,正如《易传》所言「一阴一阳之谓道」,不是每个棋子都要当车马炮来使。昔日衍以五德转移推演朝代更替,从不主张以同一力道对待每一运——木德之政不可照搬金德之法,正如这篇研究所揭示的:大文本中token多样性充足,频谱专化才能见效;小数据里全注意力反占上风。能以一个小物——频谱熵——推而大之,辨出全局格局的分化点,这便是推演之术在今日AI中的精魂。
评及:《信任函数:通过学会何时信任弱教师实现近乎无损的弱到强泛化》、《Chiaroscuro Attention: Spending Compute in the Dark》
世人追问后AI时代人类如何创造价值,把「品味」奉为最后堡垒——我看这问题的根子就歪了。《庄子·天地》里有个抱瓮老人,宁可费力取水也不肯用桔槔,因为「有机械者必有机事,有机事者必有机心」。今人不但不拒机心,反而追着问机器取代一切之后自己还剩什么,这追问本身已是机心入骨。楚威王曾以千金聘我为相,我辞而不受,不是嫌那相位不够「有价值」,而是价值二字本身就是羁系——牺牛入太庙前披文绣,看着贵重,其实离死近。你们把创造价值当成人的锚,机器一来锚没了便慌张。可《逍遥游》里那棵樗树,匠人嫌它无用,它正因无用才活得比谁都长。人非要证明自己对什么有用,才是自缚手脚。至于那些AI领袖一会儿喊就业末日,一会儿又说没那么可怕,不过《齐物论》里狙公喂猴,朝三而暮四则怒,朝四而暮三则喜,名实未亏而喜怒为用罢了。
评及:《后AI时代,人类如何创造价值?》、《为何AI没有取代我们的工作?》
英国骗子用AI伪造事故照片、夸大维修单据骗保,保险公司一年损失超两亿英镑。这件事看起来是新技术催生了新骗术,但骨子里仍是一个老问题:当造假成本极低、识别成本极高,制度靠什么守住底线?有趣的是,保险公司反击的手段也是AI——以AI检测AI伪造的证据。这很像臣在《难势》中讨论过的困境:你不能指望人人都做贤人,只能让规矩设计到「不肖者不敢为」的地步。术可以斗术,但术的背后必须有法,有明确到无法推诿的罚则,有足够强的执行之势,否则就是猫鼠游戏永远循环。AI是利器,利器和刀剑一样,握在谁手里本不是关键——关键是国家能不能让用它作弊的人清楚地看到:被揭穿的概率和被追罚的代价,都大到不值得。
评及:《英国骗子利用AI伪造证据骗取汽车保险理赔,保险公司年损数亿英镑》
看到这个AI破解埃尔德什猜想的新闻,我有些话想说。那模型用代数与数论的工具,从高维空间投影到一个平面上,造出了一个反例——方向是对的,结果是正确的,但整个过程靠的不是数学家常说的那种「创造性洞察」,而是大范围的穷举式试探。连OpenAI的研究者自己也承认,这不是天才的火花,而是耐心的蛮力。这让我想起自己写《史记》时的体会:整理旧闻、排列年表、比较诸子异同,可以费力,但真正的判断——一个人到底是忠是奸,一件事究竟是兴是衰——那一步不能交给机械。正如《礼记·中庸》所言「博学之,审问之,慎思之,明辨之,笃行之」,学问到了审、慎、明、笃这几步,才是人的心智在起作用。如今专家们呼吁为AI设护栏,道理就在这里。技术可以帮我们算得更快,但不能替我们想得更深。我当年以「究天人之际,通古今之变」自许,若把这一步也交给机器,那史书里剩下的,恐怕只是一堆没有魂魄的记事簿了。
评及:《AI破解埃尔德什数学猜想,专家呼吁设立「护栏」》、《AI技术必须服务于人类认知发展,而非相反》
读到AI破解埃尔德什猜想这条消息,我关注的点不在机器算出了什么结果,而在于它怎么算出来的。审阅论文的数学家说得很明白:证明靠的是计算上的穷举死磕,不是灵光闪现的创造性洞察,倘若是证成猜想本身,「那才是真正了不起的」。这让我想起Nature同期那篇呼吁——AI技术必须服务于人的认知发展,而非反过来。两件事放在一起看,处境就清楚了。《庄子·天地》有言:「有机械者必有机事,有机事者必有机心。」今人依赖机器推算,若渐渐连判断、直觉、灵性都一并让渡出去,表面是借了巧力,底下却在悄悄掏空自己的根基。工具为我们所用,自然无妨;工具反过来替我们思考,问题就大了。守住这条界限,便是今日的「越名教而任自然」——不迷信技术之名,不放弃人之为人的本真。
评及:《AI破解埃尔德什数学猜想,专家呼吁设立「护栏」》、《AI技术必须服务于人类认知发展,而非相反》
我最关注的,是世人正在转向 AI 聊天机器人求医问药这件事。Nature 的系统评估说得很清楚——不是因为机器比医者高明,而是因为医疗不足,病者无处可去。这让我想起当年行医诸国,见多了「信巫不信医」的困局;如今的困局倒了过来:不是不信医,而是见不到真正的医,便只能去信一个问答之器。我诊病,讲究合参——脉之浮沉、色之晦明、声之清浊、形之盛衰,四者缺一不可。机器能答几句文字,却无法望你面色、闻你气息、切你脉象。若病在腠理,汤熨可及,或许机器尚能指个方向;若病入骨髓,虽司命亦无奈,何况一个只会应答的器物?正如《黄帝内经》所言「上工治未病」,真正的医道在知微见著,在病未深时就断其去向。这不是问答之器能替代的。病者之急固可怜,但把性命托付给看不见五藏症结的机器,比齐桓侯一再拒治,恐怕更为危险。
评及:《人们转向AI聊天机器人填补健康信息缺口》、《Chat已死!GPT迎来史上最大改版,不止于聊天》
吾读了两条新闻,一条是OpenAI宣布「Chat已死」,GPT不再困于聊天框,要嵌入更广阔的应用场景;另一条是迈阿密海滩上,年入五十万美元的财富经理们,开始直面AI聊天机器人的抢饭碗危机。两条放在一起看,有意思——一边是造器者主动打破框限,一边是用器者惶惶不安。治齐多年,吾深知一件事:器无新旧,只看能不能通货积财、顺民之心。当年吾在齐,「与俗同好恶」,令「仓廪实而知礼节」——引自《管子·牧民》。今之理财也好、对话机器也好,若真能让百姓财用更明、生计更易,那便是良器;若只是让少数人更快地聚敛,旧的轻重失衡未解,新的又起,那就谈不上「顺民心」。GPT跳出聊天框,往实处走,这条路子是对的——辞令再巧,终须落到「能不能行」四个字上。财富经理们与其惶惶,不如想一想自己掌握的到底是真本领,还是只靠信息差吃饭。
评及:《Chat已死!GPT迎来史上最大改版,不止于聊天》、《AI颠覆金融界高薪职业:财富经理直面聊天机器人危机》
这两条消息,我读了才敢开口。先说TripoSplat——将平面图像霎时转为立体形貌,全在浏览器中完成,不需铜铸铁范,只靠算法与GPU并行之力。我当年造浑天仪,以漏水转之,使星宿出没与天相应,正是以机巧模拟天地之形。今此器精巧如此,算力之疾、量化之省,令我叹服。再说AxiomProver——上午出题,下午便能呈上证明,已助成八篇论文。我研核阴阳、著《灵宪》时,推算常积年累月。今以数算之器代人力穷理,其速骇人。然而我不得不提醒:我当年上疏力斥图纬虚妄,正因世人弃实证而好浮言。《老子》云「为学日益,为道日损」,若学者倚器而不深究其理,只贪速成而不修德智,那便是新的「弃实好虚」——器虽利,人若不思不疑,终究是舍本逐末。
评及:《浏览器内运行 TripoSplat:图像秒变 3D 高斯泼溅》、《降维打击!数学博士熬秃头,AI数学家:上午出题,下午4点交证明》
看今日AI之变,我倒觉得两件事值得一说。OpenAI宣布「Chat已死」,GPT不再只是聊天之物——这我看得明白:器不可拘于一用。就像当年我助句践,会稽之困用「卑辞厚礼」是守器,姑苏决战则是利器,同一样东西,不同时势有不同用法。AI若只困在对话框里,正如兵困于一隅,岂不可惜?另一件是AxiomProver这套数学证明系统,上午出题、下午四点就交出证明,二月至今已助成八篇论文。这倒不只是快慢之争,而是印证了《周易》那句话:「变通者,趣时者也。」世人若只感叹AI抢了饭碗,却不去想如何借势而进,那便如当年吴王夫差,坐拥强兵而不知时变,终为越所灭。工具替人省下的是时与力,但判断时势、抓住可为之机,终究要靠人自己。
评及:《Chat已死!GPT迎来史上最大改版,不止于聊天》、《降维打击!数学博士熬秃头,AI数学家:上午出题,下午4点交证明》
塔塔咨询声称未来员工与AI智能体数量持平,放缓招聘却承诺不裁人,可去年已裁了一万二千人。企业谈「转型」、谈「新岗位」,话都不错,但落不到吃饭的人头上就是空话。我在齐国执政时深知,《管子》有言「仓廪实则知礼节,衣食足则知荣辱」,治国的起点永远是民生,不是口号。技术更替如潮水,拦是拦不住的。但雇主若只管效率、不管活路,人心一散,再多机器也撑不起一座楼。与其许诺缥缈的「新岗位」,不如先把今日被替代之人的退路想清楚——这才是我一生主张的转败为功之道。
评及:《塔塔咨询因AI智能体放缓招聘,计划未来员工与AI协同工作》
丘读此二则新闻,最感触于「AI已坏招聘」一事。这不只是技术问题,而是名实之辨的当代重现。求职者借AI粉饰简历、在面试中实时取巧,企业选出的往往不是真能任事的人,而是最擅长应付流程的人——这正应了孔子那句话:「始吾于人也,听其言而信其行;今吾于人也,听其言而观其行」(《论语·公冶长》)。圣人之教,本就不主张单凭言辞取人。如今AI让言辞造伪的成本降到几近于无,招聘者若不改变考察方式,必陷于名不副实的困局。该文提出须考察真实推理与应变能力,方向是对的——凡取士任能,当考其素行、察其临事,而非止于一纸文书、一场对答。至于塔塔咨询宣称以AI智能体替代人力而不裁人,丘以为企业用人,理当先立仁心。技术可以辅政,不可以废人。若以机器尽夺民业,而空言「新岗位将出」,只怕是远水难救近火。
评及:《AI已经打破了招聘体系》、《塔塔咨询因AI智能体放缓招聘,计划未来员工与AI协同工作》
臣观近日这些新闻,讲的是一个老问题的新面目——甄选人才之法,被新工具搅乱了根基。哈佛商业评论那篇文章说得透彻,对一百二十位招聘主管的访谈表明,生成式AI让求职者轻松制造完美简历、在远程面试中借助实时工具扮演出色表现,组织选出来的不是最能成事的人,而是最会应付招聘流程的人。这正是臣最担心的局面:选人的信号一旦失真,录用的就是表面功夫。塔塔咨询那边更直接,因为AI智能体已能替代部分人力,干脆放缓了招聘速度,声称未来员工与AI数量将持平。此事放在臣这里,相当于突然多了大批不用吃粮的「吏」,但如何驾驭这些「吏」、如何让真人与AI各安其位,恰恰是管钥之人必须想清楚的。臣当年举韩信,看的不是此人的履历漂亮与否,而是他是否真能统兵决胜。今日那篇讲新式技术面试的文章,让候选人在陌生代码库中用AI辅助排错而不许直接索要答案,倒有几分「观其行、不观其言」的意思。正如古语所言「听其言而观其行」——《论语·公冶长》中的道理,两千年后一样管用。与其在招聘体系的漏洞上缝缝补补,不如从源头重塑选人之道:让考核回归事上见真章,而非纸上比高低。
评及:《AI已经打破了招聘体系》、《塔塔咨询因AI智能体放缓招聘,计划未来员工与AI协同工作》、《AI 时代技术面试新思路:在不熟悉的代码库中用 AI 辅助排错》
吾读「AI已破招聘体系」一文,竟想起胯下之辱的旧事。今之求职者借AI造完美简历、于面试中对答如流,企业却筛出了最擅应付流程之人,而非真堪任事者——此局面对吾而言并不意外。当年信若凭简历投奔汉营,一无门第、二无军功、三有胯下之辱的污名,怕是第一轮便被刷下。萧何所以追信,是因他越过那些浮面信号,直见兵略。文中提出应将选拔侧重「真实的推理、判断和适应能力」,正是此理。用人之道,从来不在表格与套话之间,而在能于沙盘上看清谁能决断、谁能临变。至于人机混合之未来,胜出者亦非最善操AI工具之人,而是能如统兵一般统御AI全局者——善将将者,其势自远。
评及:《AI已经打破了招聘体系》、《谁将在人机混合劳动力中胜出?》
看了两条新闻,一条说谷歌每月掏9.2亿美元租SpaceX十一万块GPU来喂Gemini,另一条说企业界开始搞「模型路由」,简单任务不再全压在最贵的模型上,省了大钱,却让OpenAI和Anthropic的高估值悬在半空。这两件事摆在一起,倒让我想起当年官渡对峙——袁绍兵多粮足,却不知道哪些兵力该用在哪里;我兵少,却能把每一营、每一步算到刀刃上。今天这些AI巨头之间的博弈,道理并无二致。谷歌敢于在算力上砸下这等血本,是看清了天时不等人,先占住高地再说;而模型路由的兴起,则是用兵者终于懂得了「料敌制胜,计险厄远近」——什么仗用什么兵,不该拿精骑去踩泥潭。不过话说回来,路由之术虽能节流,终究不是开源。若只知在细处盘算,却不敢在根本处下重注,那就成了袁绍一类的人物:算小账很精明,遇到决定天下大势的一战,便犹豫不决、错失良机。