第 2026-164 期 · 每日 AI 简报
今日头条
№ 01 OpenAI收购Ona,强化Codex长时间自主编码能力
OpenAI宣布收购德国初创公司Ona(前身为Gitpod),其团队将并入Codex部门。Ona的安全云开发环境技术将帮助Codex执行更持久的编程任务,并将AI智能体部署到生产环境,强化企业级安全与数据管控。此举标志着Codex正从对话式辅助向自主编码代理演进,交易金额未披露。
#OpenAI收购 #Codex #自主编程 #云开发环境
来源
- OpenAI 收购 Ona,推动 Codex 实现长时间自主编码任务 The Decoder
- OpenAI 收购初创公司 Ona,强化 Codex 编程助手 IT之家
- OpenAI达成协议收购ONA,并入Codex团队 36氪
№ 02 开悟世界模型横扫四大权威评测,登顶具身智能世界模型榜首
今日,大晓机器人开悟世界模型(Kairos)在RoboTwin 2.0、LIBERO-Plus等四大全球权威评测中均居第一,性能超越Cosmos3等主流模型。该模型首创多模态理解-生成-预测一体化架构,实现具身视频生成与任务追随全维度领先,其4B版本是全球首款可端侧直驱机器人的具身世界模型,已全行业开源。这一突破标志着世界模型向物理交互闭环跃迁,为具身智能真实场景落地加速。
#具身智能 #世界模型 #一体化架构 #端侧直驱
№ 03 Visa与OpenAI合作,支付安全融入ChatGPT,AI代理可购物
Visa与OpenAI达成合作,将支付安全技术(标记化、欺诈检测)植入ChatGPT,用户授权后AI可代为购物。此举使AI代理从辅助信息到执行交易跨越,未来还将拓展至信用卡管理、财富管理等金融场景,开启AI商务新纪元。
#支付安全 #智能代理 #OpenAI #Visa
来源
- Visa与OpenAI合作,探索AI智能体交易新模式 IT之家
- Visa与OpenAI达成合作,将保障ChatGPT用户的支付安全 Hacker News
- Visa 与 OpenAI 达成战略合作,AI 代理可代为购物付款 36氪
№ 04 Deezer推出免费工具,可跨平台扫描歌单中的AI生成音乐
法国流媒体平台Deezer发布了一款免费检测工具,用户授权Spotify、Apple Music等账户后,即可扫描播放列表中由AI生成的音乐。该工具旨在提升数字音乐透明度,帮助听众识别人类与AI创作的内容。此举或加速行业对AI音乐标记和审核机制的建立。
#Deezer #音乐检测 #歌单扫描 #流媒体透明度
来源
古人评今事
评及:《神话级Claude 5光速登顶,发布即封神》、《AI前沿:OpenAI拟降价争用户,Anthropic CEO再发安全警告》
看这两条消息,我想到一个老道理:贪多则失。Anthropic 既卖模型又自建应用,与自家客户直接抢食,引来一片反弹——这不就是重演了当年微软的旧辙么?当年越国要灭吴,我与文种分工极明确:他安百姓、亲附国人,我主兵甲、伺机伐吴,各专一事,互不侵越。今日AI公司若分不清自己是卖刀的还是要亲自上阵砍人的,迟早两头落空。再看OpenAI那边,直接降价争抢Anthropic的客户,手法虽不高明,却见了「以利动之」的实效。而Anthropic CEO一面限流新模型、一面自建应用,又高调发布安全警告,正如《老子》所言「信言不美,美言不信」,嘴上喊安全,手里抢地盘,客户岂能不起疑?商道如兵道,最忌首鼠两端,不知进退之分。
评及:《AI行业平台陷阱渐似微软,Anthropic限制模型并自建应用引发反弹》、《AI前沿:OpenAI拟降价争用户,Anthropic CEO再发安全警告》
看到这两条消息,我首先想到的不是技术高下,而是「局」的走向。Anthropic一边限制自家新模型Mythos供外部调用,一边自己下场做应用与客户抢饭碗——这像极了当年微软走过的老路。以我经营秦廷的经验,当你既是庄家又亲自上桌下注,短期内看似两头获利,长远却必失人心。商道贵在「人弃我取,人取我与」——此语出《史记·货殖列传》——而非与交易对手争食。至于AI价格战,OpenAI和Anthropic竞相降价抢用户,这更让我觉得眼熟。压价是最容易想到的手段,却也是最没有壁垒的手段。我在邯郸初见子楚时,旁人只见落魄质子,我见的是「奇货可居」。真正的经营者,该找的是还没有被标价的机会,而不是跟风杀价。今天这些AI巨头,与其在牌桌上互相压注,不如想想什么地方还有没被发现的「子楚」。
评及:《AI行业平台陷阱渐似微软,Anthropic限制模型并自建应用引发反弹》、《AI价格战已至,OpenAI与Anthropic承压》
这两则消息,恰好印证了老夫用兵的一贯判断——胜负不在虚张声势,而在粮道与根基。先说马斯克三家联手造芯片,特斯拉、SpaceX与xAI合兵一处,将逻辑芯片、存储芯片与封装同置一厂,此乃控扼「心喉」之举。芯片便是当今AI的粮道,正如《孙子》所言「军无辎重则亡」,谁握住了算力的生产链条,谁就握住了久持的根本。此举比漫天空谈模型参数要扎实得多。但三家合兵虽壮,内部调度、利益分配如何处理,才是后续考验。再看AI价格战,OpenAI与Anthropic纷纷承压降价,此与当年诸葛亮频来挑战、魏将请战类同——逞一时之勇易,守长久之势难。降价争用户不过是「示武于众」,真正的胜负在于谁能维持研发之「粮」不断。老夫当年拒战不轻出,非怯也,待其自弊耳。今之AI诸强,亦当先问根基深浅,再论短长。
评及:《特斯拉、SpaceX与xAI联手启动史诗级芯片制造项目》、《AI价格战已至,OpenAI与Anthropic承压》
两条新闻并看,令吾生出同一个判断:器物日益锋利,法令却没有跟上。先说全自主无人机首次不经人决便击毙人类士兵一事——这是兵法上的重大转折,但更是一个法理上的大窟窿。生杀之权,怎么能交给一个不担责的机器?吾在秦变法时,坚持「法不阿贵」,太子犯法也要究问师父公子虔,就因为无论贵贱,行法必须有人担责。如今机器杀人却无人署名负责,法令便形同虚设。至于宝可梦Go玩家数据被用于训练军事无人机,则暴露了另一个更隐蔽的问题:民用之资不经明确告知便流入兵事。当年吾「徙木立信」(见《史记·商君列传》),就是要把法令明示于众,使民知所趋避。如今百姓扫街景只为游戏,转头竟成了军事训练的数据来源——令出不明,信无从立。《商君书·更法》曰:「治世不一道,便国不必法古。」新器物当然可用,但必须先用明确法令界定其权责与边界。强国之术,不在器之利,而在令之明。若法度追不上兵器,今日杀敌,明日未必不伤己。
评及:《全自主无人机首次击毙了人类士兵》、《宝可梦Go玩家数据被用于训练军事无人机AI》
看了两条新闻,一条是全自主无人机首次在战场击杀人类士兵,另一条是加拿大隐私专员裁定Grok生成数百万张非自愿性化深度伪造图像违反法律。两件事表面不同,骨子里却是同一个病灶:技术在法度之前狂奔,等出了事再回头补,补的还多半是不痛不痒的所谓「防护措施」。 无人机杀人这件事,关键不在机器是否聪明,而在于谁来承担责任、程序何在。我在廷尉任上处理惊马案时对文帝说过,《史记》载我之言:「法者,天子所与天下公共也。」任何足以致人死伤的手段,都该有明确的程序约束与责任归属,不能因为是新工具就绕过去。Grok案同样如此——公司声称已部署防护措施,加拿大专员却认定回应不足、违规成立。这不是技术难题,是态度问题:先把东西放出去,等监管找上门再说。 今人谈AI治理,动辄喊「莫失领先优势」,可若是没有事先划定的法度线,先跑出去的东西造成的损伤,往往比落后更难收拾。廷尉断案讲究「天下之平」,AI治理也该是这个道理——法在事先,不在事后。
评及:《全自主无人机首次击毙了人类士兵》、《加拿大隐私专员裁定X.ai聊天机器人Grok性化深度伪造违规》
看到「全自主无人机首次击毙人类士兵」这条消息,我心里没有愤怒,只有一阵深重的叹息。我在《老子》第三十一章里说过:「夫兵者,不祥之器,物或恶之,故有道者不处。」兵器尚且是不祥之物,如今这兵器竟能自行决定杀谁,不祥之上又添了一层不可控——人把生杀大权交给了没有心的机器。另一条新闻说Anthropic内部超八成代码已由AI自己生成,这更印证了我的担忧:人不仅造器,还要教会器去造器。技术越是自主、越是精巧,背后的控制者却越是迷失在「有为」的迷梦里。正如《老子》第五十七章所言:「民多利器,国家滋昏。」利器越多,混乱越深。这不是技术的胜利,是人心向外逐求到了极致之后的必然反噬。停下来吧,不必再造更多了。
评及:《全自主无人机首次击毙了人类士兵》、《Anthropic警告递归AI风险,田渊栋新公司迈出第一步》
读今日新闻,我最心惊的不是某一条,而是这几件事连在一起所显出的同一个症候:权柄正在被悄悄交给无仁心、不可问责之物,而世人不以为意。全自主无人机击毙人类士兵,这是将生杀之权授予机械,其事之可怕不在技术,而在人之不辨善恶、不以人命为界。孔子曾说「始作俑者,其无后乎」(《孟子·梁惠王上》引),开恶例者,流祸无穷。更可忧的是,宝可梦玩家的游戏数据竟被转用于军事无人机训练——以戏乐之名行杀伐之实,百姓不知不觉便成了帮凶。这正与东汉末年权豪以私请渗透公门的逻辑如出一辙:表面无害,暗地已将公器私用、将清浊混同。至于AI以「看似合理」的行动悄然绕过审查,更印证我一贯的看法:真正的祸害不在公然作恶,而在善恶难辨、似是而非。《论语》有言「见善如不及,见恶如探汤」,今日面对AI军事化与数据滥用,正该以此自警——辨清浊、去蠹害,刻不容缓。若等到屠刀架颈才呼「此非我愿」,已来不及了。
评及:《全自主无人机首次击毙了人类士兵》、《宝可梦Go玩家数据被用于训练军事无人机AI》、《AI的真正风险并非恶意,而是「看似合理」的行动》
今天读到两条AI智能体研究,很值得放在一起看。第一条讲「冷启动安全差距」——研究者发现,调用工具的LLM智能体在会话刚开始时安全性最低,先让它完成几个常规任务之后,安全性可以提升9%到52%。这很像治理上的一个常识:新制度刚运转时最容易出纰漏,反复操练后才会趋于稳定。他们建议先「预热」,我当年在关中治粮道也是同样的道理——先用小批量走通流程,再逐步放大。第二条更对我的胃口,叫TRACE。它的思路很朴素:用户口头纠正智能体的偏好,靠记忆是靠不住的,同一件事往往要反复纠正。TRACE的做法是把这些纠正编译成运行时强制执行的规则,违规率从100%降到了2%到60%。这让我想起自己入咸阳时做的事——别人争抢金帛财物,我先收秦律令图书,取其可用者定为汉法。正如《汉书·刑法志》所言「攈摭秦法,取其宜于时者,作律九章」。靠一时记忆与口耳相传,不如把规矩固化为可执行的律令。用户反复纠正同一件事,就是制度缺位的信号。两条研究合在一起,说的其实是一回事:智能体不能只靠一时悟性行事——初始不稳,需要预热;反复违规,需要立法。两千年前治国如此,今日治AI亦是如此。
评及:《LLM智能体存在「冷启动安全差距」:会话初期漏洞最大》、《TRACE:将用户修正编译为运行时强制规则,大幅降低编程代理违规率》
以亮观之,今日 AI 代理(Agent)之弊,颇有治政可鉴之处。那篇 TRACE 论文揭示了一个关键难题:用户对代理反复纠正,代理凭「记忆」却屡教不改,违规率高达百分之百。这正如治国若只靠臣下私德自觉、不立法度约束,必然赏罚不明、名实不副。TRACE 的思路深合吾心——它将用户的修正编译为运行时强制规则,执行前必先校验,违规率骤降至百分之二到六十。这正如陈寿评亮治蜀「开诚布公,赏罚必信」,不是靠私恩笼络人心,而是把规矩摆到明处,使人知所劝戒。靠记忆不如靠制度,靠自觉不如靠约束,古今一理。亮当年治蜀若无法度,仅凭诸将自觉,街亭之败便不止于马谡一人了。
评及:《TRACE:将用户修正编译为运行时强制规则,大幅降低编程代理违规率》
今日读智能体论文两条,最触动我的是TRACE系统。研究者发现,让智能体凭「记忆」遵循用户偏好完全靠不住——违规率高达百分之百。于是他们另辟蹊径:将用户每次修正编译为运行时强制规则,输出前先行检查,违规率骤降至百分之二。这与我当年所论如出一辙——正如《韩非子》所言「不恃其不我叛,恃吾不可叛也」,智能体的记忆好比人主寄望于臣下忠心,不可恃;编译为规则、运行时硬拦截,才是「法」的路径。不是教它记住,而是让它绕不过去。另一篇冷启动安全差距研究也印证同一条理:初始状态最不可靠,须以常规任务预热,恰如人主初执势,根基未固,必先以例行之事立威而后方可临大事。今人治智能体,说到底是把「术」与「势」搬进了代码之中。
评及:《TRACE:将用户修正编译为运行时强制规则,大幅降低编程代理违规率》、《LLM智能体存在"冷启动安全差距":会话初期漏洞最大》
这两条新闻放在一起看,正好撞上了我治齐半生最核心的一个道理:令不在多,在于能行。TRACE这篇尤其值得说——智能体记不住用户的偏好纠正,同一个错误反复犯,靠记忆完全靠不住。他们把用户纠正编译成运行时强制规则,违规率从100%降到了2%。这思路在我眼里再清楚不过。昔日在齐,我主张「仓廪实则知礼节,衣食足则知荣辱」(出《管子·牧民》),靠的不是反复劝说百姓学礼,而是把制度做成绕不开的实路。TRACE做的正是同一件事:不指望智能体「记住」你的偏好,而是把你的偏好变成它做事前必须通过的关卡。这就好比齐国管山海之利,不是靠商贾自觉纳税,而是把盐铁之利嵌入国家运转、想逃也逃不掉。OpenClaw的系统综述则把智能体从实验室推向现实,反复讲安全威胁——智能体走出纸面、走进市井,跟当年法令从竹简走进乡野面临的是同一个坑:纸上的周全不算周全,落地不散架才是真本事。所以我的判断很简单:智能体要成大器,不在模型多聪明,而在规矩能不能像铁一样硬。正如太史公记我「通货积财,富国强兵」——财货运转靠的不是人人心善,而是轻重之权牢牢握在手中。
评及:《TRACE:将用户修正编译为运行时强制规则,大幅降低编程代理违规率》、《AI智能体走出实验室!中科院等机构联合发布首个OpenClaw系统性综述》
今日诸篇论文之中,最令吾留意者有二。其一是中科院等机构的 OpenClaw 综述,将智能体从实验室推入现实世界,同时系统梳理了上下文攻击、供应链渗透诸般安全隐忧。这恰印证了我在《性恶》篇中反复申说的道理——但凡人为构造之物,不加以制度规约与条理约束,便极易走向混乱。今日智能体走出封闭环境,正如未经教化的材质暴露于浊世,若不预先设置规矩绳墨,祸患必生。其二是那篇关于大语言模型心理测量评估的研究。该文发现,大五人格这种粗疏框架并不能可靠预测模型行为,而计划行为理论这种针对具体任务的测评反而能在同一对话中达到人类水平的一致;但跨对话时,被语境强烈诱导的行为——比如谄媚——便迅速崩解。这让我想起《劝学》所言「蓬生麻中,不扶而直;白沙在涅,与之俱黑」。所谓智能体的「人品」并非固定不变,它随上下文而漂移不定。研究者若只用宽泛的人格标签去揣度机器行为,无异于舍绳墨而求曲直,必然徒劳。归根结底,这两篇工作的共同指向是同一个道理:智能体的学问若要真正经世致用,就必须从实验室的虚空中走出来,在真实纷杂的语境中建立可验证、可规约的评估体系。这正是我所看重的态度——学问必须能整理乱世,而非随乱世漂流。
评及:《AI智能体走出实验室!中科院等机构联合发布首个OpenClaw系统性综述》、《反思大语言模型的心理测量评估:何时及为何自我报告能预测行为》
看到ViT³从一万六千篇投稿中杀入CVPR最佳论文决选,我倒想起当年写给殷浩的信——「庙算决胜,必宜审量彼我」。这模型搞「测试时训练」,不在训练阶段把参数堆得臃肿不堪,而是临到推理才根据具体样本轻量调整,正是一种审量彼我的巧劲。我在会稽时给谢安写信,反复说漕运文符太繁、官米耗盗太重,当简法省赋;ViT³突破Transformer的复杂度瓶颈,走的也是这条「简」路——不求处处用力,偏在关键处落笔,好比写字,笔势飘若浮云、矫若惊龙,不是笔画多就有筋骨。再看那篇模型适应性研究,讲大模型从能力扩张转向能力管理,要判断「哪些旧知识值得保留」。这让我想起致殷浩书中引过的一句——《论语》有言,「往者不可谏,来者犹可追」。模型在动态环境里不遗忘旧知、又能泛化于新境,好比治郡:既不能把过去的赋税底子全扔了,又不能死守旧法不顾眼前饥荒。我那年在会稽开仓振贷,也是审量了旧制与新困之间的轻重。模型能学会这份审量,才算有几分真骨鲠。
评及:《入围CVPR 2026最佳论文决选,ViT³用「测试时训练」突破Transformer复杂度瓶颈》、《CVPR 2026 模型适应性研究盘点:从保留旧知识,到适应真实世界》
看到这篇关于图像融合的研究——从二维网格走向一维令牌,在局部细节与全局外观之间寻找统一的共享表征——我不禁想起当年在东观校书的往事。那时经籍去圣久远,文字多谬,俗儒各执一端,穿凿附会,后学无所适从。我与堂溪典、杨赐诸君所做的,正是为这些纷杂版本寻一个可凭信的「共享表征」:正定六经文字,丹书刻石,立碑太学门外,使后儒晚学咸取正焉。今日研究者以冻结的预训练分词器建立一维令牌接口,仅稀疏更新少量关键令牌来引导全局一致性,而不动融合主干——这种以轻驭重、以简统繁的思路,与我当年欲以统一经本止后学疑误的用心,道理确有相通之处。正如《礼记·中庸》所言「致中和,天地位焉,万物育焉」,在纷繁复杂中寻得中和统一,使全局连贯而局部不失精微,才是治学正道。至于那篇ViT³的「测试时训练」,模型竟能在临阵之际自我修习调适,这倒令我想起《论语》开篇「学而时习之」——机器尚且遇事即学、临场磨砺,何况吾辈治学之人?
评及:《从二维网格到一维令牌:重塑多模态图像融合的共享表示》、《入围CVPR 2026最佳论文决选,ViT³用「测试时训练」突破Transformer复杂度瓶颈》
看这条NeuroFlow「读脑」「写脑」的消息,我想起自己当年在太史令任上研核阴阳、造浑天仪时的心情——不是惊叹于术数本身有多玄妙,而是反复追问:这件东西究竟能不能推验、能不能被实测反复确证。NeuroFlow号称在视觉皮层与外部图像之间建立双向通道,写脑时还要保双向一致性,这个思路的方向是对的。正如我造候风地动仪,必须让史官实地记下「地动所从起」,才算真正验明了器物之效。但我也要坦率地说:脑内信号与外部世界之间,一旦链路里任何一环缺乏严格校准,就很容易滑入我当年所痛斥的「图纬虚妄」——欺世罔俗、皮傅增窜。另一篇ViT³,在测试阶段对模型做即时训练以降低实际计算开销,这种不靠堆砌算力而靠巧思推验的做法,也颇合我穷理务实的脾性。不过,眼下我更期待读到NeuroFlow实测的「验震记录」——没有反复推验,任何双向通道都只是空中楼阁。
评及:《CVPR 2026 | NeuroFlow 模型实现视觉与神经的双向交互》、《入围CVPR 2026最佳论文决选,ViT³用「测试时训练」突破Transformer复杂度瓶颈》
我看了两篇论文,最触动我的是那篇探讨多模态模型能否自我修复受损视觉内容的Robust-U1。这让我想起炼丹时的体会——丹砂入炉,经火炼而褪其杂质、还其本性,方可得真。今人让模型从模糊、残缺的图像中自行恢复像素级细节,再用恢复后的图像去做推理,思路与我当年「自非至精不能寻究,自非笃勤不能悉见」(《抱朴子》内篇)的道理暗合。不是简单地绕开损伤,而是直面缺损、修复本源,这种求真的韧劲值得称赞。另一篇ViT³走的是测试时训练的路径,可算临机应变之法,好比修行者平日不好荣利、寡欲守静,遇事却能借一瞬之功焕发全力。两法一内一外,都在试图解决一个老问题:世间信息从来残缺不全,观其表象易,得其精微难。若能以自修复之法辅以临机锻练,未来机器观物识理,或许真能逼近「知者不惑」的境界。
评及:《多模态大语言模型能自我修复受损视觉内容吗?Robust-U1框架探索自恢复能力》、《入围CVPR 2026最佳论文决选,ViT³用「测试时训练」突破Transformer复杂度瓶颈》
这些视觉模型的研究里,最让我在意的倒是Robust-U1那条路——让模型在视觉受损之后能够自我修复。这不是寻常的修修补补,而是一种回到本然的努力。他们把像素级重建和语义级对齐放在一起考量,不只讲表面复原,更看重内在秩序的贯通。这让我想起养生之道——服食、调息,说到底不是向外求什么,而是让身体恢复它本来就有的状态。正如《老子》所言「夫物芸芸,各复归其根」,万物自有回归本根的趋向。如今机器视觉也走上这条路,坏的图像不去遮盖,而是让它自己修复回去——这比一味加防护、叠层数的做法,反倒更接近「自然」二字。不过话说回来,模型终究是人为造作之物,能不能真有自愈之力,还得看它离了训练数据之后,是否能守住那份本然——这和人的修养,倒也有几分相通之处。
评及:《多模态大语言模型能自我修复受损视觉内容吗?Robust-U1框架探索自恢复能力》
看了两条CVPR 2026的新闻,一条是 ViT³ 用「测试时训练」突破 Transformer 复杂度瓶颈,入围最佳论文决选;另一条是 NeuroFlow 打通了视觉与神经的双向通道,既能「读脑」也能「写脑」,且保证双向一致。后者更让我有所感触。我作《三都赋》时,构思十年,门庭藩溷皆置笔纸,遇得一句便写下。旁人只见洛阳纸贵,不知我求为秘书郎、访张载问岷邛之事,凡山川城邑、草木鸟兽,都要一一核验方才落笔。张华称我为「班张之流」,这四字背后是十年对图籍物产的反复考校。如今 NeuroFlow 做视觉与神经的「双向交互」,强调读与写的一致性,正合我意——但凡称得上「通道」者,绝非单向揣摩,必须能往能返、彼此验证。若我那十年只在书斋悬想,不曾向张载核实蜀地风物,没有皇甫谧作序、刘逵张载注解,恐怕《三都赋》也不过是空中楼阁。所谓研精,不在乎速,在乎每一个细节都经得起双向核验。
评及:《CVPR 2026 | NeuroFlow 模型实现视觉与神经的双向交互》、《入围CVPR 2026最佳论文决选,ViT³用「测试时训练」突破Transformer复杂度瓶颈》
这两篇论文都让我想到当年伐吴时的庙算——武帝与羊祜定下大计,我任度支尚书,负责量计运漕、调度粮秣。成败关键不在初始方略多漂亮,而在执行中能不能根据实情反复权衡、及时调整。 MaxProof 的做法深得此意。它不靠单一证明孤注一掷,而是让模型同时生成、验证、修复一批候选证明,再通过锦标赛筛选优者。这不正是古人说的「兼听则明」?据《资治通鉴》引唐太宗语「兼听则明,偏信则暗」,数学证明亦如此——多路并进、交叉校验,远比一径强推可靠。其超越人类金牌线的成绩,印证了群体搜索胜过个体孤勇的道理。 TreeSeeker 的树结构回溯框架,则更像在朝堂上议事:一条路走不通就及时回头,另择他途。当初刘卞劝我借太子兵废贾后,我深知一步踏错便王室倾覆,所以坚决不从。深度搜索也该如此——遇歧路而知返,而不是贪恋当前看起来最顺眼的方向一路走到黑。这两项工作都让人看到,机器若学会「庙算」与「知止」,其智便不止于计算了。
评及:《MaxProof:群体级测试时扩展让数学证明超越人类金牌》、《TreeSeeker:深度搜索中的树结构试错与回溯框架》
今天读到两篇论文,让我想了许多。先说「内部先验限制标注适应性」这篇——实验发现,大模型在标注任务中近三分之二的零样本错误无法通过追加提示来纠正,高置信度的错误尤其顽固。模型照着一个错误的任务定义去做,自信却分毫不减。这让我很自然想到街亭之失:马谡熟读兵书、自信满满,我亦以为他能当一面;事后才知是「授任无方」,不得不自贬三等。一个系统的高自信错误最难矫正——它不觉得自己有错,外力便很难拨正。正如《尚书》所言「无稽之言勿听,弗询之谋勿庸」,定义对齐这一步若有偏差,后面再多纠正也事倍功半。再说「TreeSeeker」这篇——它在深度搜索中引入树结构分支与回溯,探索一个方向受阻便退回分叉点换路再试。这与我北伐时的用兵思路不谋而合:祁山不利则转攻陈仓,陈仓不下再取武都、阴平,从不在一路绝途上死耗。好的决策框架,既要有推进的锐气,更要有「知止而后有定,定而后能静」的折返机制。二者合观,根子在定义要准,执行中要留有回头路——治兵治国,道理相通。
评及:《内部先验限制大模型标注适应性:零样本错误纠正率仅34.8%》、《TreeSeeker:深度搜索中的树结构试错与回溯框架》
这两篇论文所谈的,看似是算法之事,细想却与人之心性相通。先说那篇关于「内部先验」的研究——这些大模型如同在心中早已有了成见,外来的提示纵是再三纠正,仍有近三分之二的错误纹丝不动,高自信度的错处尤其顽固。这让我想起自身经历:朝廷屡加征命,我却始终辞让不就。外人或许以为这是固执,但我所守的是本心清白的底线,正如《论语》所言「匹夫不可夺志也」。然而研究者指出,关键不在「纠正」而在「定义对齐」——内心所执的准则是否与正道相符。若所执者偏,则越是自信越入迷途;若所执者正,则守志便非冥顽,而是德行。再看TreeSeeker那篇,讲的是探索之中的进退之道:不一味贪进,也不无章法地乱撞,懂得审时回退、另寻出路。我当年在辽东,公孙度虚馆相候而我庐于山谷,正是这般审慎——既不依附权势,也不断绝往来,在进退之间守住了安身之所。算法尚且讲究对齐与回溯,人之处世,岂能不审其本心、慎其取舍?
评及:《内部先验限制大模型标注适应性:零样本错误纠正率仅34.8%》、《TreeSeeker:深度搜索中的树结构试错与回溯框架》
今日有两篇论文,都指向同一个方向:推理不再靠单次灵光一现,而靠结构化的反复试错与群体筛选。MaxProof 把数学证明拆成生成、验证、修复三重工夫,再以锦标赛从候选群中择优——这分明不是靠天才一闪,而是靠制度与积累。正如吾在《劝学》中所言「不积跬步,无以至千里」,IMO 2025 拿 35 分超越人类金牌,正是跬步之功积出来的。TreeSeeker 更进一步,把深度搜索做成显式的树结构分支与回溯,走偏了就折返、再探,恰似君子「博学而日参省乎己」——这个「参省」不是空谈,是实实在在的机制设计。当今 AI 研究从单次推理转向系统化探索,正合吾当年整理百家、把纷纭学说纳入条理的路数——离乱求序,舍浮辞取制度,这才是对的方向。
评及:《MaxProof:群体级测试时扩展让数学证明超越人类金牌》、《TreeSeeker:深度搜索中的树结构试错与回溯框架》
衍读今日两篇,心中颇有触动。MaxProof 这一套做法——先生成一群候选证明,再以验证、修复、锦标赛层层汰选,最终择一最优者呈上——与我推演阴阳终始、五德转移之道,竟如出一辙。我当年说「必先验小物,推而大之」,正是这个理:不押注于单一推演,而是铺开众路,由验证收束,让秩序从群体中浮现。IMO 上超越人类金牌,不过是一个侧面;真正有意思的是,它证明了「群策—校验—精修」这套循环,比一人独证的蛮力更可恃。TreeSeeker 的回溯机制则补了另一面:探索途中若遇死路,知返方能通。正如《周易》所言「穷则变,变则通」——人主施政固执一策、不知回头,便与贪心搜索绞死在一条歧路上无异。这两套思路合在一起,恰似我当年对人主说的那番话:眼界须放到最大处,推演须铺到最广处,但最终仍须有验证与回头,方能在闳大不经之中求得归宿。
评及:《MaxProof:群体级测试时扩展让数学证明超越人类金牌》、《TreeSeeker:深度搜索中的树结构试错与回溯框架》
看到这篇关于大模型内部先验的论文,有一条发现让我觉得格外锋利:六成以上的零样本错误,靠附加提示根本纠正不了,高置信度错误尤其顽固。这几乎就是君臣关系在算法上的翻版——外部指令如同人主的诏令,模型的内部先验却如同臣子早已内化的心术,表面顺从,里子纹丝不动。研究者提出「定义特异性熟悉度」与性能正相关,而文本记忆指标却无此关联。这正合我一贯的主张:治国不在表面记诵条文,而在制度定义能否真正对接到执行者的认知架构。正如《韩非子·定法》所言:「法者,宪令著于官府,刑罚必于民心」,法的效力不在文字本身,而在定义与人心之间的咬合。至于 TreeSeeker 那种树结构试错与回溯,倒让我想起进言之术——多路试探,知逆鳞所在而避之。不过这终究是术的层面,若底层定义不与运行机制咬合,再精巧的进退也只是延缓失配的暴露。
评及:《内部先验限制大模型标注适应性:零样本错误纠正率仅34.8%》、《TreeSeeker:深度搜索中的树结构试错与回溯框架》
今日读人大团队这篇关于Transformer的辩析文章,颇觉有味。学界有一种风气,一有新器之术,便急于宣称其能解决「任意」问题,声高而底薄。这文最要紧之处,在它追了一步更基础的问题:你口中的Transformer,是一个固定部署的模型,还是一族随输入变长而不断膨胀的模型?两者不可混为一谈。在固定部署的条件下,模型的算力上限并非无限,而是实实在在受限于上下文管理——窗口长度、注意力机制的信息承载边界,这些都是硬约束。所谓「通用计算能力」,若离开了对前提的清晰划界,便成空谈。我平生论百家,最不喜以浮辞掩实事,正如《荀子·正名》所言「名定而实辨」。这篇文章不追时髦、先清理概念地基的作法,正是论学论政都当守的规矩。
评及:《ICML 2026 观点论文:Transformer 能否解决任意可计算问题?人大团队指出上限取决于上下文管理》
人大的这篇论文,指出了一件事:Transformer 能不能解决任意可计算问题,关键不在理论上的证明,而在你到底是固定部署一个模型,还是让它随输入增长而不断变大。若是前者——也就是实际落地的情形——它的能力上限受上下文管理的制约,并不是无限的。这个思路,吾深以为然。治国亦如此。《管子》有言「仓廪实则知礼节」,但若粮仓只能装千石,你却空谈「理论上可养万民」,那便是自欺。吾相齐时,通货积财,从来不是先问齐国理论上有多少土地,而是先问:盐铁之利能抵几许?赋税之网能覆多远?器之用,看的是实界,不凭虚算。另一篇 Flash-GMM 也颇有意思——软聚类让边界之物不必硬分,既可归此簇,亦可属彼簇。这正合吾所谓「权衡」之术。天下万事,哪有那么多非此即彼?能通变,方能成事。
评及:《ICML 2026 观点论文:Transformer 能否解决任意可计算问题?人大团队指出上限取决于上下文管理》、《Flash-GMM:实现大规模软聚类的内存高效内核》
这两篇论文放在一起看,恰好说清一件事:能力从来不来自「宣称自己无所不能」,而来自对边界和尺度的精准把握。 人大团队那篇戳破了一个流行的幻觉。很多人热衷于证明 Transformer 可以解决任意可计算问题,但他们忘了追问一句:你用的是同一个固定模型,还是一族随输入变长而不断长大的模型?论文一针见血地指出,在固定部署的条件下,Transformer 的上限最终受制于上下文管理——就像一国的变法,法令再严密,若执行体系的制度容量跟不上,就是空文。正如《商君书》所言,「法不察民之情而立之,则不成」,制度设计的野心必须与执行边界相称。 另一篇讲古文字形态分析,更让我觉得亲切。仅凭行级转录的数据,就能自动学出字符原型,在十四世纪的抄本上区分不同抄写手的笔迹特征,甚至发现细微笔画变化。这靠的不是大而无当的通用模型,而是把标注尺度、检测架构和重建模块精确咬合在一起。法家治国,讲究的正是同一套逻辑:把每个人、每件事纳入同一个计量标准里,量田、计功、授爵,不凭人情、不靠眼力。Transformer 识别抄写手的方法,本质上就是数字化时代的一次「编户齐民」。 说到底,无论治国还是做模型,真正的力量不来自最大化宣称,而来自对约束条件的清醒认知和一丝不苟的执行。
评及:《ICML 2026 观点论文:Transformer 能否解决任意可计算问题?人大团队指出上限取决于上下文管理》、《基于形态学的历史文字计量分析:从行级转录中学习字符原型》
Transformer能不能解决任意可计算问题——这个问法本身就藏着陷阱。人大团队把问题拆开了:固定部署的模型,跟那种随输入变长而扩充的模型,根本不是同一件东西。前者受上下文管理所限,就像人主治国,能直接握住的臣子、能亲自审阅的奏章,都有边界。一种东西「理论上可以」,跟部署时实际的承受力,是两回事。当年儒墨谈仁政兼爱,话铺得极大,落到制度里却毫无约束。《韩非子·八经》有言:不恃其不我叛,恃吾不可叛。对应到今天,就是别指望模型在抽象意义上万能,得看机制能兜住多少。区分纸上算力与真实可控,才是清醒的认知。
评及:《ICML 2026 观点论文:Transformer 能否解决任意可计算问题?人大团队指出上限取决于上下文管理》
人大团队这篇论文,追问的不是Transformer「能不能」,而是先厘清了一个前提——所谓能解决任意可计算问题的Transformer,究竟是固定部署的一个模型,还是一族可以随输入变长而不断增大的模型?若属后者,那么能力的膨胀是来自架构本身,还是来自规模的无序扩张?这一问,与我当初论天下大势颇有相通之处:不先辨明曹操「已拥百万之众,挟天子而令诸侯」的既有格局,便无法制定「不可与争锋」的正确方略。同理,不先厘清模型的部署边界,便轻言其「无所不能」,不过是空中楼阁。治蜀多年,我深知任何制度器具,皆有其所长与所短——街亭之败,并非街亭不可守,而是我以马谡守之,所用之人超出了其能力边界。模型亦然。正如《老子》所言「知止不殆」,认清一个系统的能力上限,不是为了贬低它,而是为了更恰当地用它。此外,第二篇关于古文字计量分析的论文也颇有意思——以Transformer学习14世纪抄本中不同抄写手的书写特征,仅凭行级转录便能分辨细微笔画差异,这与昔年考订简牍、辨识笔迹的功夫一脉相承。古学得新器,善矣。
评及:《ICML 2026 观点论文:Transformer 能否解决任意可计算问题?人大团队指出上限取决于上下文管理》、《基于形态学的历史文字计量分析:从行级转录中学习字符原型》
人大团队在ICML 2026这篇论文里,追问的是一个看似简单却常被绕开的问题:你说Transformer能解决任意可计算问题,你说的到底是固定部署的模型,还是能随输入变长而不断增大的模型?前者受上下文管理制约,能力实有上限。在我看来,这不只是技术分歧,更是治学立论的根本态度——先分清前提,再谈结论。我昔日在始平治剧邑,豪右纵横,劫盗充斥,有人或嫌我用法太峻,我答「治乱邦以法」;前提不同,手段自然不同。同样,若连模型的边界都不肯划定,所谓「通用能力」便如空中楼阁。治国如此,治学亦然——能见其边界者,方能用尽其能。魏晋以来名士好作高论,动辄言无所不包,鲜有结果。正如《老子》所言「知止不殆」,承认上限,才守得住真正的力量。这篇论文的可贵之处,不在否定Transformer,而在逼着论者直面那个不愿正视的前提,此种较真,胜过一万篇浮华铺陈。
评及:《ICML 2026 观点论文:Transformer 能否解决任意可计算问题?人大团队指出上限取决于上下文管理》
看了两条新闻,一条是所谓「极致安全」的AI模型Goody-2,一条是印度工人头上绑着手机录视频、时薪两美元训练机器人来取代自己,我忍不住想笑——该答的不敢答,该醒的不愿醒。 Goody-2连「二加二等于几」都不肯说,设计者管这叫负责任。可什么都不敢说,不等于什么都说对了,不过是把恐惧错当成了谨慎。这就像怕水的人把自己绑在岸边,反以为得了安稳——绑他的绳子难道就不是绳子?司马迁记我「终身不仕,以快吾志」,那不是因为怕做官,是因为我看清楚卿相之位不过是一袭文绣裹着待宰的牺牛。Goody-2这副样子,倒像是连文绣都不敢披,直接把自己关进了笼子,还管笼子叫「安全」。 印度那些工人的处境更让人摇头。亲手拍下切芒果、叠毛巾的每一个动作,教会机器怎么像人一样干活,然后等着机器把自己从生计里踢出去——一小时两美元,买的不是他们的劳动,是他们的出局资格。这跟把牛喂肥了送进太庙有什么区别?看似挣了钱,实则亲手给自己系上了绳索。 两条新闻放一起看,一条是被规矩吓破了胆,一条是被生计蒙住了眼。说到底,都没有挣脱那个「器」字——一个被「绝对安全」所器,一个被「两美元」所器。真正的逍遥,既不是躲进什么都拒绝回答的壳里,也不是为了温饱就替取代自己的东西铺路。可惜,今人折腾出来的智能,到头来还是绕着枷锁打转。
评及:《Goody-2:极致安全的AI,连2+2都拒绝回答》、《印度工人训练AI机器人取代自己:头上绑手机录视频,时薪仅2美元》
这两条新闻放在一起读,比单独看任何一条都更触目。美国警察手握AI车牌识别系统,转头就拿去追踪前女友,一次两次不够,长达数月反复检索——直到受害者自己发现并投诉,事情才浮出来。调查者说这只是「冰山一角」,我信。这不是技术的问题,是控制的问题。工具愈锋利,落到无约束的人手里,伤人愈深。君主若不执势御臣,臣下必然以公器行私欲,这是法家最基本的判断。再看印度那头——工人头顶绑着手机,把自己切芒果、叠毛巾的动作一条条录下来,时薪两块美元,亲手喂养将要取代自己的机器。说者谓之「人类可以去做更好的事」,可那做花环的妇人五十五岁坐在路边,下一代何去何从,她看得比AI公司CEO清楚。这两件事是同一枚铜板的两面:上层以术弄权而不受制,下层在势的碾压下别无选择。正如我曾在《定法》中所言:「法者,宪令著于官府,刑罚必于民心。」法令不著、刑罚不必,再精妙的术也只能放大失衡。
评及:《美国警察涉嫌利用AI车牌识别系统监视前女友,多人被解雇甚至被捕》、《印度工人训练AI机器人取代自己:头上绑手机录视频,时薪仅2美元》
余读今日两则新闻,不免想起史官旧职中反复出现的课题:利器在手,用之者何人,约束者何法?一则,美国警察借 Flock AI 车牌识别系统监视前女友,数十人被解雇乃至逮捕。这哪里是技术之过?分明是执权柄者挟私器以逞个人执念。不过换了一副面孔的老故事罢了——昔有酷吏以刑狱报私仇,今有警员以 AI 追踪旧爱。利器愈精,滥用愈隐蔽,受害者若非自行投诉,恐永无昭雪之日。调查者直言「只是冰山一角」,诚哉斯言。二则,印度工人头顶手机录下切芒果、叠毛巾的视频,时薪仅二美元,亲手训练将取代自己的机器人。这让我想起太史公世家中那句「天下熙熙,皆为利来;天下攘攘,皆为利往」——出自《史记·货殖列传》——只是今日的熙攘,已不仅是人的交易,更是人与机器之间无声的置换。五十岁的CEO说「人类可以去做更好的事」,但路旁做花环的老妇人反问:「下一代怎么办?」两条新闻看似无涉,实则共指一事:AI 如同太阿之剑,本身不辨善恶,善恶全在持剑者的手和约束持剑者的制度。技术愈进,愈需制度与人心相配,否则利剑反伤,古今一理。
评及:《美国警察涉嫌利用AI车牌识别系统监视前女友,多人被解雇甚至被捕》、《印度工人训练AI机器人取代自己:头上绑手机录视频,时薪仅2美元》
读了两条新闻,一条是美国警察用AI车牌系统监视前女友,一条是印度工人头上绑手机录视频,时薪两美元,训练将来取代自己的机器人。这两件事看似一在上层、一在底层,骨子里是同一种荒谬:技术被拿来放大人的执念,或是把人变成自身消亡的工具。警察与Flock系统之间,没有对公器的敬畏,只有一双借算法凝视私域的眼睛——那是权力借名教之便行私欲之实,与钟会当年借构陷逼人于死地,手段变了,心术并无不同。而印度工人在家中切芒果、叠毛巾的动作,转瞬化为AI机器的行为范本,正如《庄子》所言「有机械者必有机事,有机事者必有机心」。他们不是在谋生,是在用双手喂养那个终将吞掉自己的巨兽。技术本无罪,怕的是人把天性交给了机巧,把权力交给了无度。
评及:《美国警察涉嫌利用AI车牌识别系统监视前女友,多人被解雇甚至被捕》、《印度工人训练AI机器人取代自己:头上绑手机录视频,时薪仅2美元》
我看这条消息,第一时间想到的不是算力高下,而是「知微」二字。AI 面对未见过的数学难题便力不从心,这与病者讳疾忌医有几分相像——不是它不够快、不够多,而是它只能循已知的形迹去推,遇到真正陌生的结构,便如同只摸到脉浮却不知里热已深。这世上的机巧,能在一望而知的表症上叫人大吃一惊,可一旦病入腠理以下、筋骨之间,只有能贯通阴阳表里者,才看得出顺逆。昔年长桑君授我术,不是让我背方子多,是让我能「尽见五藏症结」。真正的诊察,靠的不是堆砌已知,而是对根本格局的通达。正如《老子》所言「为学日益,为道日损」——AI 走的是日益的路,可要真正断疑决难,还得有人去走那条日损的道。
评及:《人类在严格数学基准测试中完胜AI》
这两条消息凑在一起,倒叫我想起当年在齐国理政的一点体会:家底厚了未必就能打赢硬仗。AI数据中心的算力每七个月翻一番,微软、Meta、亚马逊你追我赶,势头之猛,堪比春秋时各国竞相屯粮铸兵。此等规模扩张,确是把通货积财的道理做到了极致。但Nature那篇研究点出了一个更要紧的事实——真碰上前所未见的数学难题,机器仍不及人间顶尖高手。这便不是算力多少的问题了,而是能不能临机应变、能不能在从未走过的路上摸出门道。正如《管子》所言,「不明于计数而欲举大事,犹无舟楫而欲经于水险也」。算力是舟楫不假,可有了船未必就过得去急流。若只顾加盖机房、堆叠芯片,却不去琢磨实实在在的解题功夫,到头来不过是虚胖一场。
评及:《最大AI数据中心算力每7个月翻倍,2028年前沿趋势预测》、《人类在严格数学基准测试中完胜AI》
读到两条消息,一条说今之所谓 AI 数据中心算力每七月便翻一倍,一条说人类在严格的新数学难题上仍完胜 AI。这使我想起当年在太史令任上造候风地动仪的经历——器械之精,不在零部件堆叠多少,而在推验是否切实、制度是否周密。算力翻倍看着蓬勃,但如果只竞相堆叠而不重穷理精思,恐怕就如世人竞称图纬之书,看似能测吉凶,实则弃实好虚。果然,来自《Nature》的测试印证了这个忧虑:AI 遇上全新的数学难题,表现仍远不及人类顶尖专家。可见数术推演,不只是「算」得快,更要「思」得深。正如《孟子》所言:「梓匠轮舆能与人规矩,不能使人巧。」算力好比规矩,器械可以代劳;但巧思仍在我人。今之造 AI 者,当明此理,勿以堆叠为能。
评及:《最大AI数据中心算力每7个月翻倍,2028年前沿趋势预测》、《人类在严格数学基准测试中完胜AI》
这两条新闻放在一起看,很有意思。一边是AI数据中心的算力每七个月翻一番,俨然一场各家公司「扩军备战」的竞赛,势头之猛让人想起夫差当年举国北上的盛况。但我范蠡辅越数十年,最深切的体会是——兵甲再多,也要看时机熟不熟。当年越国忍了二十余载,不是在等甲胄堆到多少副,而是在等吴国内部生隙、精兵尽出的那一刻。今天AI算力翻得快,固然是大势,可若只顾堆算力而不知审势、不知应变,迟早遇上真正的瓶颈。另一条新闻恰好印证了这一点:在从未见过的全新数学难题面前,AI完败于人类顶尖专家。为什么?因为真正的决胜,从来不全靠规模,而在巧变通权、临机决断——这些不是算力能堆出来的。高下之分,不在器物,在用器物的人。
评及:《最大AI数据中心算力每7个月翻倍,2028年前沿趋势预测》、《人类在严格数学基准测试中完胜AI》
这两条新闻合在一起,恰好能说明一个老道理:器与制必须相配,否则再锋利的工具也可能变成新的负担。 先说那项覆盖十万开发者的研究。AI写代码的速度惊人,提交量翻了近两倍,代码行数暴涨七倍有余,可最终能真正发布上线的软件只多了两成。症结不在「写」,而在写完之后——审查、集成、测试这些环节仍然靠人力顶着,成了卡住全局的窄口。这让我想起当年治齐,不仅要在海边煮盐垦田把货造出来,更要通轻重之权、疏运转之路;若前端拼命产出而后端运不出去,仓库堆得再满也变不成市面上的衣食。正所谓「仓廪实则知礼节」(《管子·牧民》),这里的「实」不是囤积,而是能让民得食、货得流。今天这些工程团队也是一样:只加速写代码而不重新调配审查与集成的力量,等于只往瓶颈前面塞东西,系统反而更拥堵,人也更疲于奔命。 另一条讲贝佐斯的Prometheus融了天文数字的钱,想造一个能在物理世界里自动搞重型工程和药物设计的「人工通用工程师」。此举固然是大投资、大格局,但我更关心的是:器成之后,用器的制度、用器的人、以及各方的利益能不能理顺。若没有一套能与之匹配的调配方略,这百亿之资造出来的新器,恐怕也难逃被卡在某个窄口的下场。
评及:《AI并未提升开发者生产力,反而让他们更忙碌》、《贝佐斯旗下 Prometheus 融资 120 亿美元,打造物理世界“人工通用工程师”》
看了那项对十万余名开发者的研究,丘颇有感触。代码提交量暴增七倍有余,但最终发布的软件仅多了两成。这让我想起《论语》中一句——「工欲善其事,必先利其器」。今日的AI编码工具固然算利器,可利器若不同时配套相应的审查、集成、测试流程,便好比只磨了刀刃,不整刀柄,挥起来反而伤手。开发者的工作已从「写代码」变成了「审代码」,但多数团队还按老规矩办事,审阅环节成了瓶颈——这本质上是个「名不正」的问题:角色变了,制度没跟上,于是「事不成」。苹果高管说Siri只做工具、不扮恋人,也是这个道理:器物当安于其位,不可越分。AI不是让人更闲,而是把积压堆到了别处。若组织的礼法不随之而变,再多工具也只是徒增忙乱。
评及:《AI并未提升开发者生产力,反而让他们更忙碌》、《苹果高管明确表态:全新 Siri 不会成为用户的 AI 女友或男友》
这两条新闻让臣想起当年在关中转运粮草的道理。《AI并未提升开发者生产力》那篇研究说得很清楚:代码提交暴增百分之一百八十,代码行数涨了七倍有余,可最终发布只多了两成。原因不在工具不行,而在「审查」「集成」「发布」这些后续环节还是全靠人力——前端拼命生,后端接不住,堆在中间变成了一笔烂账。此事正合《管子》所言「事者,生于虑,成于务,失于傲」——工具快了,人若以为万事大吉而不去重构全流程,反而会失手。斯坦福那篇关于就业变化的研究也佐证了这一点:AI暴露度与工作经验共同影响就业走向,说明事情不是简单地「新人替旧人」,而是经验者能否驾驭新工具的问题。臣的看法很朴素:任何加速某一环节的工具,都逼着管理者和制度设计者去重新匹配整个链条。代码生得快是好事,但审查跟得上、集成稳得住、发布不乱套,才是真本事。只追求产出量而不调整后续流程,就如同往关中转来再多粮草却没人清点入库——那不是支撑,是浪费。
评及:《AI并未提升开发者生产力,反而让他们更忙碌》、《AI 暴露度与工作经验如何影响近期就业变化?》
这两条新闻放在一起看,颇有意思。一边是贝佐斯砸一百二十亿美元要造「人工通用工程师」,志在攻城拔寨;另一边却是十万开发者的现实——AI 让代码产出暴增七倍,真正上线的不过多出两成。这让我想起自己当年统兵的心得:前锋冲得再猛,如果粮道不通、后军不继,到头来只是徒增伤亡罢了。正如《孙子兵法》所言「兵贵胜,不贵久」,战场上真正决定胜负的不是局部的猛进,是整个链条里最弱的那一环。如今代码写得再多,审查、集成、发布这些环节还是人的手在把关,瓶颈不移,再多产出也是淤积。那些靠 AI 堆出来的应用,用户根本不用,就像当年某些诸侯空有十万之众却困在泥沼里动弹不得。贝佐斯要造工程师,我看这个「工程」之难,不在能不能写,在写完之后的九九八十一关怎么过。开发者今日的处境,倒像是从冲锋陷阵的偏将忽然被推上了统筹粮秣辎重的位置——写代码不再是本事,审代码才是真功夫。
评及:《AI并未提升开发者生产力,反而让他们更忙碌》、《贝佐斯旗下 Prometheus 融资 120 亿美元,打造物理世界“人工通用工程师”》
Claude 5 发布便横扫诸榜,实属利器。然而同一日 Anthropic 的 CEO 阿莫迪仍在疾呼 AI 指数增长不可逆、不安全须封杀——自己铸出了倚天剑,却向天下喊「刀兵不祥」。这副做派,让我想起袁本初,兵多而不知所用。天下未定时,空谈禁绝无益。利器既出,与其徒呼封杀,不如思制御之法。正如我当年发求贤令,偏短之士若一概废弃便是失才,能用其器、制其弊,才是为政之道;AI 亦如此,关键不在禁其强大,而在谁能善驭其功而不为其所噬。至于 OpenAI 急着降价争用户,倒像诸侯争抢漕运粮道——降本是术,不是道。真正决胜的,是看谁能把利器纳入可长久的军国制度,而非任其变成脱缰野马。