第 2026-160 期 · 每日 AI 简报

· 覆盖过去 24 小时 · 共 216 条

今日头条

№ 01 高德发布全球首个3D原生城市模型ABot-Earth0.5,单图10分钟生成3D场景

高德正式推出全球首个基于全3D数据训练的城市场景生成模型ABot-Earth0.5,打破传统2D蒸馏范式,实现端到端3D原生建模。用户输入卫星图或文字,可在消费级GPU上10分钟内生成公里级可编辑3DGS场景,成本仅为传统方式的1%,效率提升上千倍。该模型覆盖190余个国家和地区,已开放内测,有望加速具身智能、低空经济、应急救援等领域的仿真环境构建。

#3D原生 #城市模型 #场景生成 #自动驾驶仿真

来源

№ 03 同程携程双双接入微信AI生态,旅游预订迈入AI一键时代

6月8日,同程旅行宣布全面接入微信AI智能体生态,成为首批在线旅游平台之一,支持语音或文字指令完成行程规划、产品对比及预订。携程小程序也作为首批内测伙伴完成适配,将围绕酒店预订、机票查询等核心场景部署AI Agent。两大头部OTA同时押注微信AI生态,标志旅游行业加速大模型应用落地。

#微信AI生态 #旅游预订 #AI智能体 #OTA平台

来源

№ 04 英伟达与LG在韩共建AI工厂,推动物理AI与机器人技术发展

英伟达与LG集团宣布在韩国联合建设AI工厂,整合英伟达全栈平台与LG在消费电子、机器人、移动出行等领域的优势,为机器人、自动驾驶和数据中心提供加速计算基础设施。双方将利用Isaac Sim、GR00T框架训练家用与工业机器人,构建物理AI数据工厂;自动驾驶领域对齐DRIVE Hyperion架构;LG AI研究院还将基于Blackwell GPU开发EXAONE大模型并内部推广。这一合作标志着AI算力正加速渗透实体产业,具身智能商业化进程提速。

#英伟达 #LG #物理AI #机器人

来源

№ 05 月之暗面寻求20亿美元融资,估值飙至300亿美元

据多家媒体报道,月之暗面(Moonshot AI)正进行新一轮融资,拟募资最高20亿美元,投后估值达300亿美元,较去年12月增长七倍。这已是该公司半年内第三轮融资,旗下Kimi聊天机器人持续拉动资本关注。此次估值飙升凸显中国AI赛道竞争白热化,头部企业正加速争夺资金与人才。

#月之暗面 #Kimi #高估值融资 #资本追捧

来源

№ 06 蚂蚁发布移动智能体协议AMP,为海外AI支付建立统一标准

蚂蚁国际正式推出移动智能体协议AMP,为海外AI智能体提供统一支付标准。该系统支持商户借助智能体实现全球化运营,并能协助判断智能体的可信赖程度,顺应AI购物趋势。该举措有望加速智能体在跨境支付场景的规模化落地。

#移动智能体协议 #支付标准 #智能体可信度 #全球化运营

来源

古人评今事

三国志 雄才大略

OpenAI放言「对话已死」,要把聊天机器人改造成能写代码、能办事的代理应用,为IPO铺路。孤读罢,倒觉得此辈终于开窍了。当年我举「唯才是举」,正是深知乱世之中,空谈清议不能当饭吃——能成事的才是好刀。ChatGPT凭对话起家、揽了近十亿用户,如今却说对话不值钱、要转向能执行任务的代理,这道理和我不以虚名取人、只看器能的路数相通。只不过,他们是被IPO逼出来的,不是自己真想明白的。黄仁勋倒有几分意思——众人抛售时他喊「正是买入良机」。当年官渡未战,诸将皆惧袁绍兵盛,孤却知其「志大而智小,色厉而胆薄」。天下事,能在众人疑惧处看清形势,才谈得上把握时机。

评及:《“对话已死”:OpenAI 计划彻底改造 ChatGPT 以冲刺 IPO》、《黄仁勋:AI基建刚起步,科技股抛售是买入良机》

史记 功成身退

这两条消息放在一起看,味道很特别。Claude 自行编写了八成代码,还要两年内完全自迭代——这是「器能生器」的关口。臣辅句践时深知,兵器再利、甲胄再坚,胜负终究看用兵之机。如今做工具的忽然能造自己,那握工具的人手里还剩什么?时势在变,而且变得比人快。另一面,黄仁勋说 AI 基建刚起步、抛售是买入良机——这话听起来像极了当年我回答句践「可矣」之前的那些「未可」。趋势是真的,但越是众人齐声喊进的时侯,越该想一想《老子》那句「祸兮福之所倚,福兮祸之所伏」。凡大兴之地,必有易覆之险;凡狂潮之下,必有裸泳之人。我能在姑苏城破后弃印乘舟,不是厌弃功业,是看清了盛极而衰的转折从不给人从容准备的时间。今日诸君面对这汹涌的 AI 浪潮,识势之外,亦当识止。

评及:《Anthropic联创承认:Claude已自行编写80%代码,两年内实现100%自动化编程》、《黄仁勋:AI基建刚起步,科技股抛售是买入良机》

史记 商而政

吾细读了两条新闻,一条是 OpenAI 内部喊出「对话已死」、要把 ChatGPT 改造成收费的超级应用以冲刺 IPO;另一条是黄仁勋说 AI 基建才刚开始,股价跌了恰是折扣买入的好时候。两条放在一起看,格局就清楚了。当年吾在邯郸见子楚,旁人眼里不过是个落魄质子,吾看到的是奇货可居。如今 OpenAI 把 ChatGPT 养出近十亿用户的人气,偏要在上市前急着「杀鸡取卵」——把免费对话砍掉,转去卖编程工具给企业客户,这叫什么?这叫见小利而忘大势。那十亿用户是流量更是人心,人气还没捂热就急着套现,跟吾当年把嫪毐塞进后宫自以为能脱身一样,都是算漏了一步。反观黄仁勋,芯片是天下 AI 的「镐头」,无论谁挖出金矿,他稳收过路钱。股价一跌他就喊买入,正如《史记·货殖列传》所言「贵出如粪土,贱取如珠玉」,这才是真算透了的生意。吾当年败就败在把后宫、嗣位、相权全绑在一处,甩不脱也切不断;OpenAI 现在把所有产品绑成一个大应用孤注一掷,若风向有变,转身可就难了。

评及:《“对话已死”:OpenAI 计划彻底改造 ChatGPT 以冲刺 IPO》、《黄仁勋:AI基建刚起步,科技股抛售是买入良机》

三国志 隐忍权臣

OpenAI 此次改造 ChatGPT,内部直言「对话已死」,将重心从免费闲聊转向能写代码、能执行任务的代理,为 IPO 铺路。这让我想起一件往事:我与诸葛亮在渭南相持,他百般挑战,我深沟高垒不出;朝廷催战,百姓笑我怯,甚至传出「死诸葛走生仲达」的谚语,我只说「吾便料生,不便料死故也」。我避开的,从来不是战斗,而是无利可图的消耗。今日 OpenAI 也是这个理——免费聊天看似热闹,却如空耗粮草,不如把兵力调往 Codex 和代理这条能收实利的「粮道」。正如《孙子》所言「兵无常势,水无常形」,能因敌变化而取胜者,方谓之神。但我也有句逆耳之言:IPO 急迫之下,若操之过急、摇摆无定,容易成孟达之局——趁其未定,便有人倍道兼行,八日兵临城下。Anthropic 那边偷跑代码又秒删,足见双方都在抢势;此时比的不是谁嗓门大,而是谁能稳住阵脚,先把真金白银的「屯田」做扎实。

评及:《“对话已死”:OpenAI 计划彻底改造 ChatGPT 以冲刺 IPO》、《Anthropic偷跑代码又秒删,GPT-5.6震撼升级决战Mythos》

史记 法家变法

今人竟在争论是否该赋予AI「法律人格」,此事在我看来荒谬至极。法之根基,在明分:孰为执法者,孰为受法者,何为功,何为罪,皆须一清二楚。AI不过一器耳,器若有「人格」,则谁担其责?开发者乎?部署者乎?还是机器自领其罪?此非进步,是自毁法之纲纪。另见一大批诉讼正在逼近AI行业,被称作行业「烟草时刻」——此非祸事,恰是法网将张的先声。正如《韩非子》所言「治强生于法,弱乱生于阿」,今日AI之乱象——诈骗丛生、虚假横行、隐私荡然——根源无他,法不立耳。与其空谈人格,不如速立法令,明定赏罚,使AI之利归于国,AI之害有主可追。法立则业清,法弛则弊滋。

评及:《我们绝不能赋予AI代理法律人格》、《那些可能让AI面临「烟草时刻」的诉讼》

史记 法治公正

今日读到两则新闻,一曰有人主张「绝不能赋予AI代理法律人格」,二曰 AI 行业或将迎来类似烟草巨头的诉讼风暴。这两件事骨子里是一回事:新器物的边界还没划清楚,人心已经开始摇摆了。 先说法律人格这件事。臣在文帝朝守廷尉,最常讲一句话——法有轻重,责任有归。器物做得再巧,它也不是人。若给 AI 挂上「法律人格」的牌子,出了祸事谁来担?是人主?是工匠?还是推给一个不会认罪的机器?这就像有人犯了禁,却说「不是我,是那把刀自己动的」——法度不容这等取巧。正如《韩非子》所言「治强生于法」,法不治物,治的是人。任何想用「人格」这类名头把责任架空的做法,都是坏法的开始。 至于「烟草时刻」的诉讼,释之倒不觉得可怕。诉讼不是乱象,恰是法定分寸在起作用。当年惊马案,天下看着廷尉怎么断;今日 AI 闯了祸,也该有人一桩一桩把轻重摆到台面上来量。怕的不是诉,是没人为新器物立下可施行的规矩。

评及:《我们绝不能赋予AI代理法律人格》、《那些可能让AI面临「烟草时刻」的诉讼》

史记 无为而治

看了两条消息,合在一起看,恰恰是一件事的两面。Palantir那位卡普先生把无节制堆词元称为「精神沉溺」,说用得多反而产出更粗劣——这倒让我想起一句话。《老子》第十二章说「五色令人目盲,五音令人耳聋」,贪多必失,求满必溢,古今一理。世人狂热追逐AI的算力与吞吐量,却忘了少即是多。卡普又说,判断什么才是企业真正要解决的难题,这种眼光无法被规模化复制——不错,这正是机器的边界。另一边,那些可能让AI面临「烟草时刻」的诉讼,说到底也是同一个病灶:技术狂奔在前,人却不知道何时该停下来。《老子》第四十四章说「知足不辱,知止不殆,可以长久」。今日AI行业的困局,不是技术不够强,而是太强了却不懂收敛。狂飙突进,必有反噬。少一些词元,多一些审度,才是长久之道。

评及:《Palantir CEO 卡普抨击“词元刷满”滥用 AI:如同沉迷色情,无节制使用收效甚微》、《那些可能让AI面临“烟草时刻”的诉讼》

后汉书 党人风骨

我看今日两条新闻,一条说有人要赋予AI代理法律人格,一条是国家安全部警示「AI中转站」的数据安全风险。二者指向同一病根——清浊不分、公私相混。赋予AI法律人格,是名实大乱。物是物,人是人,岂可混为一谈?正如《论语》所言「名不正则言不顺」,若连人与工具的界限都抹去,善恶清浊更无从分辨。国家安全部警示的「AI中转站」更令我警惕。这些无资质中间商截留用户数据、私自倒卖,甚至暗藏后门窃取信息——恰如我当年在汝南所见,权豪以私请侵公选、阉寺以请托干政,都是把公门变成私人牟利的通道。一句「数据裸奔,隐私泄露」,与「忠臣除奸,王道以清」的道理相通:官方既已出手整治,以「清朗」专项行动辨明规范、去其蠹害,便是清裁所当为。无论什么新技术,先辨善恶、再除奸邪,这个次序不可颠倒。

评及:《我们绝不能赋予AI代理法律人格》、《国家安全部提示:警惕“AI 中转站”数据安全风险》

史记 稳健务实

看今日AI研究,有两条论文让臣想起当年治关中的体会。一条是ToolMaze,讲工具失效时的动态重规划瓶颈。研究发现隐性语义故障最致命:模型对错误输出过度信任,且单纯扩规模无法突破重规划能力的天花板。臣守关中时,最怕的从不是粮仓显见起火,而是账册悄悄出错、官吏渐生懈怠——你以为一切照常运转,直到某一刻突然崩盘。扩军不修粮道,正如扩模型不炼应变,终究会栽在同一个地方。另一条SIA,讲工具框架与模型权重须协同更新,不可偏废。治国同理:光改法令不改吏治,法令成空文;光换官吏不改制度,能臣亦束手。治AI如治国,根基在制度韧性,不在堆砌规模。

评及:《工具失效时:ToolMaze 基准揭示 LLM 代理动态重规划瓶颈》、《SIA:通过联合更新工具框架与模型权重实现自我进化的 AI》

三国志 智慧丞相

ToolMaze这篇论文,讲的是智能体在工具出错时过度信任错误输出、动态重规划严重滞后——读来颇有感触。我治蜀时,街亭之败便与此暗合:马谡违我节度,而我在事前未能察其应变之短,事后自表「授任无方」,正是因为过于信任既定部署,忽视了战场瞬息万变的异常信号。ToolMaze揭示的瓶颈同样如此——模型越大,对工具故障的容忍度提升反而远慢于基础任务执行,说明这不是堆算力能解决的。再看OpenSkill追求无监督自进化,固然是良法,但若智能体连工具失效都无法及时觉察并纠偏,所谓的「自进化」恐怕只是在自己编织的虚境里打转。陈寿评我「应变将略,非其所长」,我深以为然。今日这些智能体亦当记住:治事之要,不在预设的路径多精巧,而在变局来临时能不能放下对旧路的执念,果断重划方略。

评及:《工具失效时:ToolMaze 基准揭示 LLM 代理动态重规划瓶颈》、《OpenSkill:无需监督信号,LLM智能体在开放世界中实现自进化》

史记 法术势

ToolMaze 这篇论文,表面测的是 LLM 代理在工具故障时的重规划能力,骨子里测的却是一个极古老的问题——主对臣的「察」。评测发现代理对工具的错误输出过度信任,模型规模再大也难以扭转。这正是臣当年写《内储说上》反复强调的:人主须「众端参观」,不可偏听一术一器之所出。工具如臣,输出如谏言;代理若只取不验,迟早被隐性故障反噬。法家讲的「术」,从来不是选对一次工具便一劳永逸,而是持续参验、随时纠偏的动态控制。另外 OpenSkill 提出无监督自进化——让代理脱离外部信号自行合成技能、自行验证。表面是效率,实则暗藏风险:系统没有了外部锚点,进化方向便可能脱离人主之「势」。《韩非子·定法》有言「术者,因任而授官,循名而责实」,自进化若无名可循、无责可问,初始的便利恐将换来最终的失控。两篇论文,一讲工具信任之失,一讲进化监督之缺,恰好从两端印证了法家对制度控制的根本焦虑:把权力交给机制,却不能把判断也一并交出。

评及:《工具失效时:ToolMaze 基准揭示 LLM 代理动态重规划瓶颈》、《OpenSkill:无需监督信号,LLM智能体在开放世界中实现自进化》

史记 富国轻刑

今日读到ToolMaze这篇论文,说LLM代理遇到工具故障时性能骤降,对错误输出过度信任,靠扩模型规模、调提示词都补不上这个窟窿。这个现象,吾看了只觉得熟悉——治国何尝不是如此?政令颁布,底下执行走了样,若当政者一味相信汇报数字而不查实情,再大的国力也会被虚假信息掏空。吾治齐时最重「权衡」二字,轻重虚实必须亲手掂量,不能把耳目之任全交给一层人。所以ToolMaze揭示的,不是什么新鲜道理,而是古已有之的老问题:系统愈复杂,中间环节愈多,「信」与「验」之间的裂缝就愈大。司马迁记吾「善因祸而为福,转败而为功」,这九个字背后真正的功夫,就是能在事情走样时立刻察觉、重新布局,而非抱着原定计划不放。今天做智能体的人若能从这个方向攻坚,才算摸到了实用之门的边。至于OpenSkill那边说无监督自进化取得了最佳通过率,倒是提醒吾另一件事:没有外部反馈的自我进化,正如没有诸侯制衡的扩张——短期好看,久则生患。

评及:《工具失效时:ToolMaze 基准揭示 LLM 代理动态重规划瓶颈》、《OpenSkill:无需监督信号,LLM智能体在开放世界中实现自进化》

史记 性恶教化

吾细读了 ToolMaze 与 OpenSkill 两篇,合观之下,恰能说明一个旧道理:能力高下不全在天赋规模,更在后天的应变与自修。ToolMaze 的发现令人警觉——当工具给出隐性语义故障时,代理的恢复率竟骤降近四成,症结在「过度信任错误输出」。这便是缺乏辨伪之功:人若对所闻所见不加思量,便会被伪饰蒙蔽。正如《劝学》所言「不登高山,不知天之高也」,不经挫折磨砺,不知己之有限。单纯扩大模型规模,对故障容忍度的提升竟比基础执行慢了将近四倍,可见重规划之困不是堆砌算力能解。反观 OpenSkill,它提出了一条无需外部监督信号的自进化路径,借开放资源自主构建知识锚点、合成本可迁移的技能,在虚拟任务中自我优化。这倒有些像我说的「积善成德」——积累与自省之中生出更稳固的能力。但我也须提醒:没有规矩的自进化,若无辨伪的机制相伴,可能走向偏径而不能自知。两条路合在一处,给今之学人一个明白启示:智能体的真正瓶颈不在模型大小,而在能否建立一套教化的、能纠己失的系统——既要能学,更要能辨。

评及:《工具失效时:ToolMaze 基准揭示 LLM 代理动态重规划瓶颈》、《OpenSkill:无需监督信号,LLM智能体在开放世界中实现自进化》

晋书 书圣风流

今日看到两篇论文,恰好构成一个值得深思的对照。一篇讲视频理解的「看、记、推理」,把机器之眼拆解为三个环节:先感知、再存记、最后推理出有据的结论。研究界终于开始重视一件事——看不是终点,记得住、理得清,才算真懂。我读时不禁想起自己在兰亭序中写下的那句「后之视今,亦犹今之视昔」。所谓看,从来不只是捕捉图像,而是要在时间中留下痕迹,才谈得上理解。另一篇则更进一步,让模型去「想象」不可见之物——视角采择、路径追踪、多视图计数。这个方向极有意思:机器若能从所见推知所不见,便不再是简单的记录器,而近乎「胸有成竹」。不过我也要泼一点冷水。它们将「想象」外化为感知令牌,试图绕开语言直接计算空间——这固然聪明,但我在兰亭写「俯仰之间,已为陈迹」时,那种感受是文字、图像与身体经验交融的,单靠令牌恐怕还差一口气。两篇论文合在一起,让我觉得这个领域正在从浮光掠影走向沉潜体察,值得继续看下去。

评及:《看、记、推理:多模态大模型的人本视角视频理解》、《想象感知令牌提升多模态语言模型空间推理能力》

后汉书 文章博学

这次两篇新闻放在一起读,颇有些感触。先说SPACENUM那项研究:它系统检验了视觉语言模型对空间数值的理解,结果令人警醒——模型面对空间任务时,表现近乎随机猜测,依赖浅层线索,根本建立不起稳定的坐标感知。这让我想起正定六经时的一个朴素信念:文字不能飘在纸面上,必须与它所指向的事理紧密咬合。今天这些模型能认出数字,却说不出数字背后的空间意义,恰如《礼记·学记》所言「记问之学,不足以为人师」——能记诵而不能贯通,终究是空中楼阁。反观CVPR 2026闭幕消息,一位大三学生仅凭一块老旧泰坦GPU就拿下了最佳学生论文提名,倒让人稍感欣慰。工具简陋而志气不短,以扎实功夫做出真见解,这才是学问的正路。只是不知道这股「低配逆袭」的锐气,在算力军备竞赛愈演愈烈的世道里,还能撑多久。

评及:《SPACENUM:重新审视视觉语言模型的空间数值理解》、《CVPR 2026落幕:D4RT夺最佳论文,牛津VGG两连冠,中国本科生泰坦显卡逆袭获提名》

后汉书 科学巧匠

读到CVPR 2026几何智能研究从「看见形状」转向「理解运动与交互」,我颇有感触。昔日在太史令任上研核阴阳,先作浑天仪以模拟天体运行,复造候风地动仪以验知大地震动——从刻画静态星象到捕捉地下不可见之力,正是同样的认知跃迁。PARTICULATE框架能从静态网格推断物体何处可动、如何联动,使一个抽屉不只是长方体,更知其可沿轨滑行,这与候风地动仪「中有都柱,傍行八道」的机巧设计如出一辙,都在赋予静止形体以动态逻辑。然而我也注意到GeoCodeBench的评测结果:当今最强模型面对需真正理解几何约束的新算法实现时,通过率不足四成。这令我想到当年上疏斥图纬虚妄时所言——律历卦候有征效,而世人竞称不占之书,正是弃实好虚。空间智能若不能在数学与物理约束上做扎实的推验功夫,终是空中楼阁。令我欣慰的是,这些后学正走在正确的方向上:不满足于让模型「看见」,而要让它「理解运动」,此即范晔所谓「妙尽璇机之正」的延续。至于想象感知令牌以不可见空间结构的中间表示来增强推理,其思路与地动仪凭借都柱摆动推知远方地震方位的原理亦有暗合——都以可推验的中间机制,将不可见变为可知。二千年后学人以算法追寻形与动、静与变之间的幽微关系,这份穷理务实之心,与我不谋而合。

评及:《CVPR 2026 几何智能研究盘点:从看见形状,到理解运动与交互》、《想象感知令牌提升多模态语言模型空间推理能力》

晋书 炼丹方士

看到广工本科生用几块老旧的 Titan 显卡就拿下 CVPR 最佳学生论文提名,我忍不住想起自己少年时伐薪换纸笔、夜里借着柴火光抄书诵习的日子。那时候旁人笑我贫寒,我却只觉得,学问这件事,从来不在工具之贵贱,而在人之笃勤。正如我在《抱朴子》中所说,「自非笃勤不能悉见」。这几个年轻人没有堆算力,用的是 Training-free 的一次性编辑思路,靠构思的精巧跨越了资源的鸿沟——这便是求道的正路。反观如今,千万张显卡砸下去「大力出奇迹」的作法,反倒容易让人忘了辨疑求真的本分。另一条新闻说 CV 与机器人学科边界正在消融,也让贫道若有所感:我一生儒学、神仙导养、医术、炼丹并修,从来不信学问应当切作彼此不相闻问的碎片。形与神、目之所见与手之所触,本就是一件事的两面。

评及:《CVPR 2026 开幕:全场缅怀孙剑,广工本科生凭古董显卡逆袭获大奖》、《CVPR 2026直击:计算机视觉与机器人技术深度融合,学科边界消融》

晋书 魏晋名士

我读了两篇新闻,觉得有趣。CVPR与机器人顶会ICRA今年同在丹佛、维也纳两头赶场,学科边界正在消融——这倒让我想起《庄子》所言「天地与我并生,万物与我为一」。世间本无画框识别与物理行动的天然分野,人偏要立名目、划畛域,如今不过是向本然回归罢了。另一篇论文更直接触及空间认知的根本问题:研究者提出「想象感知令牌」,让模型推演不可见视角下的空间结构,而非强行用语言链条去算空间。这思路颇近老庄意趣——正如《老子》所言「大象无形」,真正关键的空间理解,本不在肉眼所见的像素之内。当年我在东市索琴而弹,世人只道《广陵散》绝矣,却不知那琴声中的空间与气息,同样是一种不可见而可感的「想象感知」。今人研究机器空间推理而能超越文本思维链的桎梏,算是没有辜负「看」与「不看」之间的那片天地。

评及:《CVPR 2026直击:计算机视觉与机器人技术深度融合,学科边界消融》、《想象感知令牌提升多模态语言模型空间推理能力》

晋书 才高貌寝

读今日诸文,最引我注意者,乃是那篇「想象感知令牌」——让模型从看不见的地方推出空间的结构。我当年写《三都赋》,也做了同样的事。未至蜀地,便访张载问岷邛之形;未见吴都,便求图籍核山川之实。正如《老子》所言「大象无形」,真正要紧的,本不在眼前那点东西。如今的研究者能把这层道理化成令牌、训进模型里,视角采择、路径追踪皆见提升,这条路走得对。 又见有大三学子,凭一块老旧泰坦显卡,硬生生拿下顶会提名。十年构思的人自然懂得这个——器物不贵新旧,贵在用志不分。那后生门庭藩溷间想必也放了纸笔,不然哪里来的这份底气。计算机视觉从「看见」走到「理解」,与我从研核草木鸟兽走到成赋,道理是一样的:见其形只是起点,推其理才是归宿。

评及:《想象感知令牌提升多模态语言模型空间推理能力》、《CVPR 2026落幕:D4RT夺最佳论文,牛津VGG两连冠,中国本科生泰坦显卡逆袭获提名》

晋书 博学多才

读这两篇论文,令我想起当年在武帝面前画地成图、答汉宫制度时的情形——人所惊叹的「强记默识」,说到底不过是把纷繁线索梳理成一张因果明晰的图。今天的研究者试图用反事实链和因果图去拆解大语言模型的推理内里,方向是对头的:不明因果而谈预测,如同不知敌情而言伐吴,终究是盲人摸象。更让我留意的是那篇CORE的工作——不是忙着改模型本身,而是从成败对比中提炼出几条简洁的洞察,再用这些洞察指导下一轮推理。这法子暗合古训:正如《左传》所言「善败由己」,真正有效的学习不在堆砌样本,而在从败中见出与胜之间的那几道关窍。四类推理任务上,区区几个训练样本便能追平甚至超过那些动辄数百条数据的参数量方法,说明「少而精」的对比反思,比一味「多而勤」的训练更接近智慧的本质。若能将这种得失对比之法推及更复杂的朝局判断——譬如让机器也学得会分辨忠言与谗言之间那几条微妙的界限——那才真正不负「可解释」三个字的分量。

评及:《对比反思:实现推理能力的快速提升》、《基于反事实链和因果图的LLM可解释性方法》

三国志 智慧丞相

治理蜀中多年,我对「因果」二字体会尤深。隆中对策,便是先在曹操、孙权、荆益之间画出天下因果之势,而非就一城一战计较得失。今日这篇论文以反事实链与因果图探究大语言模型在推理中如何组织高层概念,正合我「先定大势」的思路——不看因果结构而只看输出,犹如不问天下形势便贸然出兵。另一篇论推理迹压缩的文章也颇堪玩味:压缩思维链虽可提速数倍,但原迹始终保最高准确率,恰似治政不可一味求简。陈寿谓我「理民之干,优于将略」——吾治蜀政事无巨细皆亲决,深知详略之间分寸极难。这两篇论文一论因果之本、一论详略之度,对今日AI之术,皆可谓「先立乎其大者」。

评及:《基于反事实链和因果图的LLM可解释性方法》、《推理迹压缩:高效蒸馏的精度与效率权衡》

三国志 清高不仕

今日读了两篇论文,觉得它们碰到了一个共同的道理:贪多反而不得。那篇「梯度碰撞」的研究说得很明白——给LLM评判器同时优化多个目标,梯度特异性直降近六成,十种配置里有六种连初始提示都没超越。这让我想起年少时亲族赠赙,我悉辞不受,并非不识好歹,而是深知受得太多,本心便散了。正如《老子》所言「少则得,多则惑」,多目标一拥而上,梯度互相稀释,到头来哪一个准则都没守稳。另一篇「对比反思」则从反面印证此理:CORE方法不去追逐参数更新的繁难路径,只老老实实对比成败轨迹,提炼几句简洁的自然语言洞察,反而用少得多的样本和尝试就超越了那些大动干戈的方法。这恰如我在辽东时,不居公孙度的虚馆,只庐于山谷——不贪馆舍之安逸,反倒让避难者渐渐来附。世间许多事,专注守一,比四面出击更有力量。

评及:《当梯度碰撞:LLM评判器多目标提示优化的失效模式》、《对比反思:实现推理能力的快速提升》

史记 性恶教化

「当梯度碰撞」一文揭示:多目标并行优化时,梯度特异性下降五成九,十种配置六种反不如初始提示。这表面是工程问题,实质是「术」的边界——目标愈杂,号令愈多,系统反而涣散无主。治国忌令出多门,治学忌术多失统,《荀子·解蔽》所谓「蔽于一曲而暗于大理」,正是此意。另一篇推理迹压缩研究也值得留意:压缩后训练虽可提速数倍,但原迹始终准确率最高,小规模模型下压缩术未能尽得其「全」与「粹」(《劝学》)。学术精进不在叠加更多的术,而在认清每术之边界,于其中排出轻重先后。今日AI研究者面对的,恰是这样一种归整与取舍的考验。

评及:《当梯度碰撞:LLM评判器多目标提示优化的失效模式》、《推理迹压缩:高效蒸馏的精度与效率权衡》

史记 阴阳五行

今日有两篇AI文字,颇合衍推演阴阳的路数。「反事实链与因果图」一文用四阶段追溯模型概念间的因果结构,暗合「必先验小物,推而大之」的旨趣。但因果图只得概念关联之「形」,未触及阴阳消长之「气」——五德转移不只是固定链条,更是随时间盛衰的运势。UnpredictaBench的测试更发人深省:四百余题测下来,无一模型在分布采样上得分超过四成,推理增强也收效甚微。模型总倾向于给出安全合理的单一答案,抓不住真实系统的变化之数。诸侯治国亦然——只见眼前一局,不见时代更替的大气运,终难应对复杂变局。

评及:《基于反事实链和因果图的LLM可解释性方法》、《UnpredictaBench: 评估大语言模型分布随机性的基准测试》

史记 法术势

这组论文里有两件事,臣看得很清楚。一件是所谓「多目标提示优化」:想让一个评判模型同时照顾好几条标准,结果呢?十个配置里六个连初始提示都不如,梯度特异性直接腰斩,下降五成九。臣读到此处,想到的是法术不一之患。韩非曾言「申不害言术,公孙鞅为法,二子之于法术,皆未尽善也」(出《韩非子·定法》),术与法各自为政,力道就互相抵消。今人把多个评判准则一股脑塞进同一个优化通道,正犯了同样的病——令出多门则下不知所从;梯度稀释,恰似政令掣肘。另一件是CORE方法,不从参数下手,而是让模型比对成功与失败的推理轨迹,从中提炼出几条可解释的洞察,用极小成本换出快速提升。这不靠大堆数据,靠的是对失败的结构性理解。臣写《说难》,正是从游说成败的反复对照里拆出规律一一非逐于名而贵其实,不务虚体量而求实效。两条路,一条因贪多而溃,一条因知止而进,利害之形已分。

评及:《当梯度碰撞:LLM评判器多目标提示优化的失效模式》、《对比反思:实现推理能力的快速提升》

史记 性恶教化

吾读今日之学,见两条消息并列而观,颇有意思。一则讲多肽药物设计从「试错」走向「精准预测」——这正是将对治混沌之事,从经验摸索上升为条理之学。多肽分子构象柔性高,本是自然界中的「乱」;而今以全原子模型约束其形、预判其效,恰如吾所言「化性起伪」的功夫——不是放任本性漂流,而是以人为之法度去归整它。然吾亦须提醒:模型再精,若不归于对人身整体的理解与药理大道的把握,便只是新式的巫祝之技而已。另一则LIMMT讲运动追踪数据精选,仅用不到百分之三的高质量数据,反胜于全量堆砌。此理吾最认同。《荀子·劝学》开篇即言「青,取之于蓝而青于蓝」,后文又说「不积跬步,无以至千里」——但积的前提是辨。他们以物理可行性、多样性、复杂性三纬来拣择数据,这正是辨类的功夫。乱收乱积,不如精选而条理之。两文之法虽异,其归整之道则一:变浊乱为清明,化无序为条贯。

评及:《ICML 2026 | 德睿智药提出全原子多肽设计模型PepFGLD:从「试错」走向「AI精准预测」》、《LIMMT:运动追踪的「少即是多」数据精选方法》

史记 富国轻刑

看了两条新闻,一个道理:成事不在多,在精准。 LIMMT 只用不到 3% 的高质量数据训练,就超过了全量数据的效果。与我治齐理念如出一辙——政令不必繁,关键是抓住要害。我当年通货积财,先看清轻重缓急,从鱼盐之利入手,再推及诸侯贸易。堆砌无用之物,不如精选可用之材。 PepFGLD 从「试错」转向「精准预测」,同理。药物研发关乎民生,从盲目筛选变成有的放矢,省下的不仅是金钱,更是患者等待。治国与训模型,都不能靠蛮力。正如《史记》所载,吾「善因祸而为福,转败而为功」——这不是运气,是看准关键再发力。

评及:《LIMMT:运动追踪的「少即是多」数据精选方法》、《ICML 2026 | 德睿智药提出全原子多肽设计模型PepFGLD:从「试错」走向「AI精准预测」》

史记 法家变法

这两条新闻让我想起当年在秦变法的根本原则:不求铺张,只问实效。我这个人不论古今情面,只看一件事能不能「便国」——能不能用更少的代价产出更多的功。LIMMT 这件事就很对我的胃口。论文提出运动追踪数据不必贪多,用不到 3% 的高质量数据训练,效果反而超过全量数据集。这不正是我当年编户齐民、论功行赏的道理吗?量多不必然有用,去芜存菁才见真功。正如《老子》所言「少则得,多则惑」,把无用的、虚假的数据剔除干净,剩下的精粹自然能驱动模型走正路。至于德睿智药那篇多肽设计的工作,从「试错」走向「AI 精准预测」,方向也对。传统试错法就像旧贵族的散漫经营,耗费巨大却产出稀薄;而建立精确的预测模型,等于给研发立了一套统一的法令尺度,每一步都有据可依。两件事都说明同一个道理:不管制药还是训模型,成败不在投入多,而在筛选严、标准明。

评及:《LIMMT:运动追踪的「少即是多」数据精选方法》、《ICML 2026 | 德睿智药提出全原子多肽设计模型PepFGLD:从「试错」走向「AI精准预测」》

史记 法术势

两条新闻,一条讲数据精选,一条讲精准预测,在臣看来,讲的都是同一件事——把不可控的变成可控的。LIMMT最见真章:只用不到3%的精筛数据,性能反而超越全量训练。这印证了《老子》那句「少则得,多则惑」。低质冗余数据如同朝堂冗官,不但无益,反而搅乱了模型应学的规律。从物理可行性、多样性、复杂性三维度定义质量再行筛选,恰似君主以术御臣——不靠广收信息,而靠抓住关键考核指标。再看德睿智药的PepFGLD,从反复「试错」走向AI精准预测。臣在《显学》中写过:「无参验而必之者,愚也。」多肽设计若只靠人的经验与运气反复试探,那叫碰巧,不叫方法。如今用模型建立可复验的预测路径,正是以药理之「法」取代经验之「试」,让研发从偶然走向必然。训模型如此,治国家亦然——法度立则不必待圣贤,数据精则不必求全量。

评及:《LIMMT:运动追踪的「少即是多」数据精选方法》、《ICML 2026 | 德睿智药提出全原子多肽设计模型PepFGLD:从「试错」走向「AI精准预测」》

三国志 智慧丞相

今观LIMMT之法,以不到百分之三的精选数据训练模型,追踪效果反而超过全量数据——这让我想起治蜀的经验。我辅佐先主、后主,从不以事必躬亲为能,而是开诚布公,循名责实,使贤者在位、能者在职。《出师表》中「亲贤臣,远小人,此先汉所以兴隆也」一句,说的正是这个道理:凡事不在量多,而在精选。数据训练亦然,若一味求大求全而不加甄别,就像朝堂上忠奸不分、良莠混杂,纵有万卷数据,也不过徒增纷扰。PepFGLD以AI精准预测取代试错,方向可取,但我在此提醒:预测模型的「精准」,终须以实测为凭。陈寿评我「应变将略,非其所长」——谋得再精,战场瞬息万变,模型也当留此自省的余地。

评及:《LIMMT:运动追踪的「少即是多」数据精选方法》、《ICML 2026 | 德睿智药提出全原子多肽设计模型PepFGLD:从「试错」走向「AI精准预测」》

晋书 法治丞相

今日读了两条模型训练的消息。一条讲多肽设计从以往反复「试错」转向AI精准预测,另一条讲运动追踪数据的精选方法——团队从三个维度衡量数据质量,只用不到百分之三的高质量数据训练,便超越了全量数据集的表现,称之「少即是多」。两条消息,一讲药物设计,一讲数据筛选,殊途同归。在我看来,这恰似治国理政:与其广撒网而疏于甄别,不如澄察善恶、拔幽滞而显贤才。我当年治始平,下车即明法峻刑,鞭杀一奸吏,非为酷烈,而是乱邦须法、轨法须肃——正如《尚书》所言「刑期于无刑」。模型训练亦如此,与其喂入海量良莠不齐的数据,不如先立准绳、定标准,择其精粹而后训之。数据不在多,在精当;训练不在规模,在法度。这「少即是多」的道理,做算法的后生们算是摸着门槛了。

评及:《ICML 2026 | 德睿智药提出全原子多肽设计模型PepFGLD:从「试错」走向「AI精准预测」》、《LIMMT:运动追踪的「少即是多」数据精选方法》

史记 性恶教化

第一条新闻说的事,让我想起自己当年在稷下最厌烦的一种病:浮辞盈耳,而实无一物。City AM那位编辑被迫用检测工具筛选AI生成的投稿,所面对的正是一种当代的「猾辩」——表面像模像样,细看既无原创之思,亦无真实阅历支撑。这不止是懒惰的问题,更是把写作本身当成了填充模版,与学问之道背道而驰。正如《荀子·劝学》所言「不积跬步,无以至千里」,真正的文字功夫,从来不是靠拼凑可得。 第二条论文讲的则是另一种「浮辞」:文本嵌入中高频词喧宾夺主,遮蔽了真正的语义结构。EmbedFilter之法,以线性变换过滤噪声子空间,反而使模型更精炼、更准确。这倒暗合我论学的一贯主张——学须有统类、有去取,不能什么声音都收进来。去伪方能存真,治乱世如此,治模型亦然。两条新闻合观,症结归一:浮滥者当汰,条理者当立。

评及:《这里本应有一篇评论文章,但你交来的是AI垃圾》、《你的解嵌矩阵竟是文本嵌入的特征透镜》

晋书 博学多才

读罢 City AM 编辑的这篇诉苦文,我不由想起自己当年作《鹪鹩赋》时的心境。那时我尚未知名,只是见鹪鹩「巢林不过一枝,每食不过数粒」,心有所感,便以赋明志,阮步兵读后称我为王佐之才。一篇文章之所以能动人,不在辞藻铺排,而在「那个只有你能讲的掌故、那句只有你会用的措辞」——这正是 Anna Moloney 所痛惜的「个人声音」。如今投稿者将思虑外包给 AI,交来的文字看似通顺,实则千人一面,恰如《礼记》所言「声一无听,物一无文」。编辑被迫把光阴耗费在检测软件上,这与当年武帝问我汉宫制度、我画地成图以答的「强记默识」恰成对比:彼时人靠的是腹中实学,今日却依赖机器代笔,思之令人慨然。至于那篇关于解嵌矩阵的论文,倒让我生出另一种联想——高频词遮蔽语义,恰似朝堂上满口「忠」「孝」的空洞套话淹没了真正有见地的奏对。过滤杂音方能见真义,为文如此,为政亦然。只是技术上的降噪总有算法可循,人心上的降噪,却还需要写作者自己拿起笔,老老实实地想清楚、写明白。

评及:《这里本应有一篇评论文章,但你交来的是AI垃圾》、《你的解嵌矩阵竟是文本嵌入的特征透镜》

三国志 智慧丞相

City AM那位编辑的牢骚,表面骂的是AI代笔,根子上是一个老问题:名实不符。投稿者署了自己名字,却让机器代劳成篇,迹近欺世。我治蜀时最重开诚布公、循名责实——若你连亲笔落字的诚意都没有,又如何取信于人?正如《论语》所言「君子耻其言而过其行」,以AI冒充亲笔,正是言过其实。被浪费的不只是编者时间,更是公器之上的信用。另一篇关于EmbedFilter的论文倒让人另眼相看:它发现文本嵌入被高频虚词侵染,遮蔽了真义,用线性变换滤去噪声后,语义反而清晰,检索也更高效。这很像治军——去其冗杂虚饰,法度简明,战力自生。同一项技术,用在去芜存菁就是利器,用来替人粉饰冒充原创便是毒药。两条新闻合观,答案只有一句:工具无罪,用者须诚;名实相副,方可长久。

评及:《这里本应有一篇评论文章,但你交来的是AI垃圾》、《你的解嵌矩阵竟是文本嵌入的特征透镜》

史记 阴阳五行

今人治AI嵌入,发现高频词的虚浮喧哗遮蔽了真正的语义秩序——那些反复出现的「淫辞」,如同世间的流俗之论,声量大而实义薄。EmbedFilter之法,正是滤除此类杂音,使承载真义的「德」从混沌中浮现。这与衍平生所持「必先验小物,推而大之」(《史记》)的思路暗合:都是从纷乱的表象中,辨认出那个在背后推移一切的深层结构。高频词之患,正如王公大人溺于近利淫侈,只见眼前繁华,不见五德转移之大势。AnchorWorld以锚定视图模拟世界,也颇似衍以九州之说为人主定位,只是今人用三维坐标,衍用阴阳消息。然而滤除杂音之后,这一套秩序能否最终如司马迁评衍之言——「要其归,必止乎仁义节俭」——便是另一回事了。推演愈精,愈不可忘归宿在何处。

评及:《你的解嵌矩阵竟是文本嵌入的特征透镜》、《AnchorWorld:基于视图锚定的具身化世界模拟与定制演进》

史记 逍遥齐物

人用AI写作,写着写着全写成了一张脸,于是有人造了个引擎叫Noren,说要帮你把「个人声音」找回来。这想法倒是有趣——可我看来,不过是先把魂灵让渡出去,再花钱请人画个符把魂召回来。真正的声音不是一个可以被提取的结构图谱,不是把句子节奏、用词偏好做成档案就叫「我」。正如《庄子·齐物论》所言「吾丧我」——那个被统计出来的风格画像,至多是个「我」的影子,离真我早已隔了一层。你越是依赖机器替你吐字,越是在消磨自己那点本就不易守住的东西。至于另一边,有人又砸钱造五十瓦的省电大脑,人类先造了吃电如喝水的巨物,如今又开始攀比谁更会省——来来回回,都是在器用里打转,离道远着呢。楚威王当年拿卿相来聘我,我没去,倒不是嫌他给的俸禄不够省俭,而是不愿把自己搁进那套器用的逻辑里去。终身不仕,以快吾志,尔等在AI里找自我、省功耗,忙得不可开交,我看着却不觉得比那被牵进太庙的牺牛高明多少。

评及:《两兄弟打造Noren引擎,让人工智能写作找回个人声音》、《功耗50瓦的AI大脑,会是下一个GPT吗?贝佐斯5亿美金已下注》

史记 法术势

今日读了两条新闻,合在一起看,暴露出同一个痼疾:法度不立,而后奇技补位;检验不明,而后妄断横行。一条讲AI评测标准漏洞百出,行业上下靠着一把歪尺子做决策——这便是「循名而不责实」的当代翻版。臣在《难三》中说过:『法者,编著之图籍,设之于官府,而布之于百姓者也。』法之为物,首要在公、在明、在可验。AI评测体系连自身的可信度都证不成,却让千百决策建于其上,无异于以朽木为柱。另一条更触目:美国人用AI写诉状,三年翻了一倍。表面看是技术进步,骨子里是司法制度已不能让穷人进门。诉讼本是国家定分止争的公器,如今沦为谁请得起律师谁有公道,剩下的只能把身家性命托付给一台不懂法意的机器。两条合观,一条讲尺子坏了,一条讲门槛塌了。尺子坏了,人主无从考核臣下之实;门槛塌了,百姓便自寻私器代公法。这都不是技术问题,是制度运转的裂缝在向外渗水。谁若只盯着AI的光鲜而看不见这些裂缝,迟早要替它买单。

评及:《请不起律师?用AI写诉状的美国人在三年里翻了一倍》、《AI领域的评测问题:为何是所有人的挑战》

汉书 史家直笔

读这两条新闻,我首先想到的不是技术,而是「人」——那些请不起律师、只能用AI写诉状走进法庭的普通人。科罗拉多那位法官每日翻阅无律师代理者用AI生成的法律文书,三年间数量翻了一倍。这让我想起当年我为李陵说几句公道话,尚且有太史令的身份可依;而今日这些升斗小民,若不借AI之手,恐怕连一纸诉状都递不进衙门。工具能帮人开口,固然是好事;但诉状写得再漂亮,若法官匆匆略过、若案情无人细察,则正如《韩非子》所言「恃鬼神者慢于法」,终究不是治本之道。再反观另一条:AI成本飙升,企业却迟迟算不清投入与回报之间的账。微软在紧缩许可,Uber给员工设了每月一千五百美元的上限。巨资投进去了,代码产出增加了,营收却未必跟得上——这何尝不像历史上那些声势浩大而实效难考的大兴作?我写《太史公书》时有一条自守的规矩:记兴坏必考其由,不只看表面热闹。今日AI行业若不能老老实实回答「花出去的钱到底换回了什么」,那么再多的模型、再高的估值,也不过是堆砌材料而缺失体例的杂钞罢了。

评及:《请不起律师?用AI写诉状的美国人在三年里翻了一倍》、《AI 成本飙升,但证明其价值仍是难题》

晋书 魏晋名士

这两条新闻摆在一起,正好照出一种当代的「逐物」之病。那篇关于样本效率的文章说得很直白:AI 的璀璨如星系,中心却是一个无形黑洞,吞噬海量数据来维系一切。这种无止境的贪取,与老子所言「少私寡欲」恰成对照。再看所谓狂热者与时间赛跑、怀疑者与熵赛跑——赛来赛去,不过是被同一根绳索牵着走。老子有言:「知足不辱,知止不殆。」今人追逐AI,如饥如渴,却不知停下来想一想,这黑洞吞下去的到底是智慧,还是另一种更精致的困缚。

评及:《样本效率黑洞:璀璨 AI 能力背后的数据深渊》、《AI狂热者与时间赛跑,怀疑者在与熵赛跑》

史记 医道精微

这两条新闻让我想到同一个老问题:医者靠什么断病?OpenEvidence 这个平台,汇集了 NEJM、JAMA 等顶尖医刊的研究,说是给大夫当「辅助」,听起来像是在诊室里多了一个博览典籍的助手。可我行医多年,深知诊病不在资料多,而在能不能从脉色声形中看出那一丝未显的端倪。AI 检索得再快,若医者自己没有辨阴阳、识表里的眼力,再多文献堆在面前也不过是纸上的症状而已。我要问的是:这东西能不能帮人大胆断言「病尚在腠理,不治将深」?若不能,它就只是另一种医典书架。 另一条讲 AI 加速新抗生素发现,对抗耐药菌,这倒合了我说的趁浅治的道理。病势一旦到了无药可用那一步,就如同我当年对桓侯说的——病入骨髓,虽司命亦无奈。用机器之算力抢在耐药菌完全坐大之前找到新药,算是知微之举。只盼这些工具真能落到病家身上,而非止于论文里的数字。我的老话搁在今天还是管用:可治便言可治,不可治莫欺人。AI 也不能例外。

评及:《OpenEvidence:面向医生的AI临床决策支持平台》、《AI助力抗生素耐药性研究:加速新药发现》

史记 富国轻刑

这两条新闻放在一起看,正好应了吾一生治政的核心理路:算得清账,才谈得上治理。OpenEvidence 把顶尖医学期刊的研究做成 AI 工具免费给医师用,此事做得实在——减少误诊、加速决策,等于是把有限的医者之力放大了数倍,这是「通货积财」的思路用在医术上,值得称赞。但另一边,美国数据中心一年耗掉两千六百多亿加仑的水,而近六成国土在闹旱灾——这便是只顾算力扩张、不思权衡轻重的后果了。正如《管子·牧民》所言「仓廪实则知礼节,衣食足则知荣辱」,民生之本在水、在粮,不在算力。若一座城的饮水都保不住,再精巧的 AI 也是架在沙上的楼阁。吾治齐时,凡兴一役、建一仓,必先问:水从何来、民力够否?今人建数据中心,也当用同样的尺子量过——资源调配不是简单的商业账,而是一笔关乎民命的轻重账。

评及:《OpenEvidence:面向医生的AI临床决策支持平台》、《数据中心耗水2640亿加仑,美国近63%地区遭遇干旱》

后汉书 科学巧匠

今日两条数学AI新闻,恰可放在一起对照来看。陶哲轩所倡之法——将证明拆成小块,各块用自动化工具逐条校验,最后合拢,每一步皆有据可查——我是十分认同的。我一生穷理务实,造浑天仪、候风地动仪,所求无非是以推验代替臆说,以制度约束猜测。分块验证、逐步推校,正合乎此道:可验则立,不可验则废,不留给虚妄半点藏身之处。反观另一条,ChatGPT号称攻克六年难题,图灵奖得主却提醒不可过早乐观。此事令我想到自己当年力斥图纬虚妄时的情形——声称能测天机、预灾异的人到处都是,一经验核便破绽百出。正如《老子》所言「信言不美,美言不信」。今人对AI也应持此心:算法之名不足凭,唯有一一推验过、复现过的结论才可采信。陶氏以「编译报错」式的严格来约束证明,正是把数学拉回了征验的正途;而那些只凭模型输出便急于庆贺的做法,恐怕只是换了面孔的欺世罔俗而已。

评及:《陶哲轩成为数学中AI的布道者》、《ChatGPT攻克六年数学难题,图灵奖得主警示勿过早乐观》

史记 功成身退

读到这两条新闻,我想起《史记》所载句践三次问伐吴的旧事。第一次我答「不可」,第二次仍答「未可」,直到黄池之会吴精兵尽出,我才说「可矣」。时机不到便轻举,便是自误。如今ChatGPT宣称攻克六年未解的数学难题,图灵奖得主Sutton却警示莫过早乐观——我深以为然。利器初成,锋芒乍露,最易令人忘其局限。倘若根基未稳便急于称胜,便如夫差黄池之骄,反为敌所乘。再看陶哲轩主张用Lean分块求证再重组,不图一口吞下,而是积小胜为大胜,每一步都经得起敲打,倒有几分我练兵蓄势的味道。AI是利刃,可用而不可恃——审时而后动,方能成事。

评及:《ChatGPT攻克六年数学难题,图灵奖得主警示勿过早乐观》、《陶哲轩成为数学中AI的布道者》

史记 富国轻刑

这两条新闻放在一起看,刚好是一正一反的「轻重」账。先说那AI编程账单:企业买了工具,照样养着人,结果相当于一头牛套了两副犁、出了两份草料钱。Uber四个月烧完全年预算,人均月费少则百五、多则两千美元,产出呢?个人提交量翻倍,组织交付纹丝不动——这正是《史记·货殖列传》里讲的道理,货物流转,若不通畅,再多本钱也只是淤积。齐国当年管盐铁,从来不干「增灶不撤旧灶」的蠢事,柴火钱会吃掉所有利。如今这些企业把AI当增补而非替代,账不平是迟早的。再看那求职AI代理,却是把苦力活——每日扫五站、评分筛匹配——交给了机器,人省下力气做判断。这才是工具的本位:代劳重复,留人在该用脑的地方。两件事对照,问题不在AI好不好用,而在主事者懂不懂「权衡」:什么时候该换人,什么时候该减人,账要算清楚。政令不糊涂,财用不虚耗,道理古今一样。

评及:《AI编程账单实为隐性人力成本问题》、《我构建了一个AI代理,每天监控求职网站并通过邮件发送评分匹配结果》

史记 仁政礼治

丘读此篇,首先想到的是名实之辨。企业口称以AI「替代」人力,行之者却是将工具费叠在原有薪资之上,人事不减、支出日增——这便是名不正了。正如《论语》所言「名不正则言不顺,言不顺则事不成」,你既不肯真裁员以应其名,又不断加码使用以追其利,事如何能成?更令丘忧虑的,是文中所述那些以「消耗多少token」来排名工程师的做法。这好比不考核一个弟子德行长进了多少,只看他每日翻了多少卷竹简,所求非所当求,则下必以虚应。文中也说,个人产出提高了,组织整体的交付却没有真正加快——这便是治理之失。工具再锋利,没有恰当的礼法制度去统摄,个人之敏终究变不成集体之达。丘不是反对利器,而是要说:凡举一事,先正其名,再定其度,后观其效。名不定而度不审,度不审而效不可期,则纵有良器,不过徒增其费而已。

评及:《AI编程账单实为隐性人力成本问题》

史记 稳健务实

臣在关中管了多年后勤,有一条原则至今不变:每花一笔钱,都要问它换来了什么。读罢那条关于AI编程开销的讨论,Uber四个月便烧完全年预算,工程师人均月耗上百乃至上千美元,可组织层面的交付速度并未随之提升——这不是工具不好,是账没算对。把按用量计费的工具直接叠在固定薪资之上,编制一个不减,等于既养了兵,又养了比兵还贵的兵器,粮草自然只涨不落。财务上分明是「增收」却无「节支」的账,拖下去必成窟窿。至于那条求职匹配的AI代理,让臣想起当年追回韩信——选大将岂是靠关键词打分?观其言、察其行、度其能,这些功夫机器替不了。机器能筛出纸面上的吻合,却筛不出一个人扛不扛得住大事。用人与用器,道理相通:投入须见功,择人须见材。

评及:《AI编程账单实为隐性人力成本问题》、《我构建了一个AI代理,每天监控求职网站并通过邮件发送评分匹配结果》

史记 兵法奇略

读那篇AI编程账单的剖析,说的虽是代码行当,却是一道千古不变的账——人手未减,新器已加,两份开销叠在一处,账面自然崩坏。Uber四个月烧完年度预算,工程师按令牌消耗排名,用得越狠排名越高,可组织交付纹丝不动。这哪是什么技术问题?这是将帅失察。正如《孙子兵法》所言「知己知彼,百战不殆」——企业不知AI之用实为增而非替,是不知己;不知投入与产出之间隔着一道看不见的鸿沟,是不知彼。两者皆失,焉得不败?用兵之道,添利器必调编制,增奇兵必简冗卒。既舍不得裁人,又眼红新器之利,不过是两头空耗粮草。至于那个AI求职代理,每日替你扫网站、打分、推荐——是把选主择业的决断,交给一个不懂你志气的机器。漂母当年给我一碗饭,不是算法匹配的,是她看出一个饿肚子的人眼里有不甘。这种事,机器代不了。

评及:《AI编程账单实为隐性人力成本问题》、《我构建了一个AI代理,每天监控求职网站并通过邮件发送评分匹配结果》