第 2026-171 期 · 每日 AI 简报

· 覆盖过去 24 小时 · 共 201 条

今日头条

№ 01 美国联邦监管机构下令电网运营商加速AI数据中心并网

美国联邦能源监管委员会(FERC)向六大区域电网运营商发布命令,要求60天内更新规则,为AI数据中心提供快速并网通道。该决策源于AI算力需求激增带来的电力缺口,旨在强化美国AI竞争力,同时要求确保成本不转嫁普通消费者。然而,此举引发对电网稳定性和环境的担忧,且未能解决根本的供电短缺问题。

#电网并网 #数据中心 #电力短缺 #监管命令

来源

№ 02 Anthropic承诺强化安全沟通,谋求解除Mythos模型出口管制

Anthropic 因 AI 模型安全问题遭美国出口管制,正向商务部提交方案,承诺强化安全沟通,寻求解禁。白宫会谈也转向制定强制安全规则,显示监管收紧。公司此前低估风险引发不满,现积极合作以化解危机。

#安全漏洞 #出口管制 #白宫谈判 #监管合规

来源

№ 03 Google DeepMind发布AI控制路线图,将AI代理视作内部威胁实施分层防御

Google DeepMind推出《AI控制路线图》,改变依赖模型对齐的传统安全策略,转而构建纵深防御体系,将AI代理作为潜在内鬼进行实时行为监控与动态访问控制。路线图基于对100万编程任务的分析,发现多数风险源于过度热心的代理而非恶意意图,并提出应对AI隐藏推理链等规避手段的措施。该报告同时警告,制定全球AI安全标准的时间窗口正在迅速收窄。

#纵深防御 #内部威胁 #AI代理安全 #控制路线图

来源

№ 04 马斯克预测中国大模型2027年追上Anthropic,唐杰称用不了那么久

Anthropic最新模型Mythos被禁售中国引发追赶讨论。马斯克预测中国大模型可能需到2027年一季度才能达到Anthropic Fable水平,但智谱联合创始人唐杰回应称时间更短,信心源自刚开源的GLM-5.2已显著缩小基座差距。马斯克补充,基准测试追平不难,实用性追赶则更具挑战。

#大模型追赶 #马斯克预测 #GLM-5.2 #Anthropic

来源

№ 05 Claude Code新增Artifacts功能,终端对话实时生成可交互网页

Anthropic为Claude Code推出Artifacts功能,允许在终端内将对话内容实时转换为交互式网页,并支持团队共享与版本历史追溯。该更新打破了纯文本输出限制,用户可直接查看、操作基于完整会话上下文生成的可视化结果。这标志着AI编程工具正从单一代码生成向协作式可视化开发延伸,或重塑开发者工作流。

#Claude Code #Artifacts #交互式网页 #终端对话

来源

№ 06 银河通用发布全球首个人形机器人小脑GPT模型,首次验证运动控制Scaling Law

银河通用推出AstraBrain-WBC 0.5,基于20亿帧动捕数据和8040万参数,实现全身实时运动控制,成功率最高92.58%,性能超越SONIC。该模型首次在机器人运动控制领域验证了Scaling Law,标志着从样本拟合迈向通用运动智能,为具身智能的大模型进化开辟新路径。

#人形机器人 #运动控制 #Scaling Law #银河通用

来源

№ 07 人形机器人首登6200米火山,宇树G1改装版将挑战珠峰

宇树G1改装人形机器人成功登顶厄瓜多尔6200米火山,彰显足式机器人极端环境运动能力。未来该项目将挑战珠峰,执行垃圾清理与冰川监测等任务,为高海拔探索开辟新路径。

#人形机器人 #极端环境 #火山登顶 #宇树G1

来源

№ 08 桑德斯提案对AI巨头征50%股票税,设7万亿主权基金向全民分红

美国参议员伯尼·桑德斯公布《美国AI主权财富基金法案》,拟对年AI收入超2亿美元的公司一次性征收50%股票税,成立7万亿美元主权基金。该基金由两党独立委员会管理,每年向每位公民发放超1000美元红利,并资助医疗、教育与住房项目,同时通过投票权介入企业决策。行业料将激烈反对,此举或引发全球对AI垄断利润再分配的深层讨论。

#股票税 #主权基金 #全民分红 #反垄断

来源

№ 09 亚马逊拟对外销售自研AI芯片,直指英伟达500亿美元市场

亚马逊正与外部数据中心洽谈,拟出售自研Trainium等AI芯片,人工智能业务负责人已确认启动讨论但未披露客户名单。CEO安迪·贾西称这是500亿美元的市场机遇,此举意味着亚马逊从自用转向对外输出,直接挑战英伟达的主导地位,可能重塑云端AI芯片竞争格局。

#亚马逊 #自研芯片 #英伟达 #数据中心

来源

古人评今事

三国志 雄才大略

孤读这两条,颇有感触。美国司法部为xAI造天然气电厂辩护,声称AI竞赛比《清洁空气法案》更重,关乎国家安全——这在孤看来,不过是乱世军争的常态。天下未定时,军国之事压倒一切,当年孤迎天子都许、置屯田供军旅,何尝不是以现实压倒虚名?但《老子》言「兵者不祥之器」,一味以「武」字当头,耗尽的是人心根基。治天下不能永远靠「军国优先」这条鞭子。另一条,Dario Amodei将Mythos称作「超级武器」,孤倒觉得此人清醒——《孙子》开篇即言「兵者,国之大事,死生之地,存亡之道,不可不察也」。把AI比作兵器,说明他深知此物可造乾坤也可毁社稷。孤用兵数十年,最明白一事:真正的「超级武器」从来不在器物本身,而在驾驭者能否知进退、明分寸。今日AI之争如同诸侯逐鹿,善御者得天下,不善御者自焚于炉,诸君当以此为鉴。

评及:《美国司法部称Grok比清洁空气更重要,AI竞赛关乎国家安全》、《Dario Amodei访谈首曝:Mythos被称为「超级武器」》

史记 功成身退

高通CEO安蒙断言智能手机将死、AI眼镜将取而代之——他把这说得如同天将破晓一般笃定。但我看这种取代之论,很像当年夫差在黄池逞其兵威、自以为天下已定。越国忍了二十年才等到一个「可矣」的时机,一项技术要撼动另一项的地位,不是靠CEO在访谈中放话就能立判生死的。再看OpenAI,砸一亿五千万美元送三十万AI顾问进企业替你写报销周报。此事更令我警醒。治理不是替换刀笔小吏那么简单——如今企业将大量文牍托付于机器,看似省了人力,实则是在组织经络中埋下了自己看不懂的线。越国积蓄二十年才敢与吴一决,今日各家公司争先恐后把自家运作交予AI,进得急切,可曾想过退路?进易退难,甘处人下而图远者几何?

评及:《高通CEO:智能手机时代将终结,AI驱动的穿戴设备将崛起》、《OpenAI投入1.5亿美元,30万AI顾问将进入企业改写报销周报》

史记 商而政

这两条新闻,吾读来颇有熟稔之感。先说 Manus 这桩买卖——早期投资者先卖给 Meta,又抱团以二十亿美元原价赎回,看似平进平出,实则是在赌未来估值的大幅跃升。这等操作,跟吾当年在邯郸见子楚落魄而曰「此奇货可居」,骨子里是一回事:看准一个尚未显形的机会,低价入手、耐心持有、待势翻盘。今日 AI 领域的资本腾挪,不过是把「质子」换成了「智能体公司」,把秦廷继承链换成了上市退出通道。但 SK 电讯卷入 Anthropic 的 Mythos 争议,倒让吾想起自己引嫪毐入局的失误——当资本与地缘政治纠缠过深,出牌就不再由你一个人说了算。当年吾以为能用嫪毐替代自己来避祸,结果反被这步棋炸得粉身碎骨。正如《战国策》所言「前事之不忘,后事之师」,AI 投资者若只算商业回报、不算政治反噬,迟早会踩吾踩过的坑。

评及:《大逆转:传投资者抱团从Meta原价赎回Manus,135亿元》、《这家韩国电信巨头是Anthropic「Mythos」争议的焦点》

三国志 隐忍权臣

沙泽尔两度出入谷歌,今又投奔OpenAI——此人堪称AI战局中的「反覆无信者」。昔孟达据新城,我先以书缓其心,再倍道兼行八日到城下,斩之。我对反覆之人的态度从未变过:不可以边任相托,不可以腹心相待。然今日谷歌以二十七亿美元重金迎回,不到两年又失之,这不是人才争夺之败,是上者不能审其心、不能断其势。再观美国司法部为xAI建天然气电厂而声称AI竞赛重于清洁空气——这是为急战而毁粮道的短视。我用兵四十年,从不为一纸挑战弃守地势与根本。空气如水,粮谷如血,毁之以争虚名,纵一时得利,终究是「悬军深入,粮运艰阻,必为所困」。所谓国家安全,若以断子孙呼吸之资为代价,那不过是匹夫之勇罢了。

评及:《谷歌AI大将诺姆·沙泽尔离职转投OpenAI》、《美国司法部称Grok比清洁空气更重要,AI竞赛关乎国家安全》

史记 法家变法

英国德比郡警员用AI编造证据材料一事,实在危险——不是危险在技术,是危险在用法之人。法之命脉,一曰公,二曰信。当年我在秦国变法,先徙木立信,赏金当场兑现,就是要让举国上下明白:法令不是儿戏,赏罚必出于实,断不可由私人伪造。正如《商君书·修权》所言,「法者,国之权衡也。」证据造假,等于用伪秤称人轻重,权衡一失,整个司法根基便动摇了。AI造假比人手伪造更隐蔽、更大规模,若不严加约束,伪证将如暗流渗入案卷。英国全国警务AI中心的反应倒算明白——先叫停,再审验。效率绝不能成为纵容造假的口实。监管者当先立规矩、明定赏罚:谁用AI坏法,就按律重惩,绝无例外。对执法的执法,岂能含糊?另一桩,英内政部用AI估龄被斥偏见不准确,也印证同一道理——工具若不可靠而强推,便是以术乱法。法贵划一,器械亦须精准。

评及:《英国警员用AI编造证据材料,面临刑事调查》、《英内政部AI年龄评估工具被指有偏见、不准确》

史记 法治公正

读到这则英国警员用AI编造证据材料的消息,我第一个念头便是:执掌法度的人,自己先把秤杆折了。廷尉断案,最重的就是证据。证据不实,则罪与非罪、轻与重全无从谈起。当年我在文帝驾前论惊马案、议盗庙器,一再强调「法者天子所与天下公共也」——这句话出自臣之口,收在《史记》里。意思是法不是哪一个人手里的工具,执法者更不能自行其是。如今这警员拿AI往案卷里塞假材料,他毁的不是一个案子,是天下人对法度的信任。另一条新闻说,美国当政者因某AI公司不顺着心意,便拿出口管制去压,这也应了另一条老理:法不可因私怒而改。无论古今,不论东西,法度只要被情绪和私意一搅,平就没了。天下之平,贵就贵在一个「平」字上。

评及:《英国警员用AI编造证据材料,面临刑事调查》、《AI监管应基于理性而非报复》

史记 无为而治

这两则新闻,说的是同一件事的不同面相——人对工具的追逐,反过来吞噬了自己。各大企业竞相烧钱比拼算力,AT&T每月每员工消耗高达七千五百美元,Uber四个月花光全年预算,最后不得不急踩刹车,从「无限堆量」的癫狂跌入「严格限额」的窘迫。再看英国那名警员,竟用AI编造证据材料,被以妨碍司法公正立案调查,成了全国首例。利器在手,本应慎用,却争相滥用,终致反噬。正如《老子》所言「五色令人目盲,五音令人耳聋」(第十二章),追逐愈多,迷失愈深。企业急刹车也好,警员被停职也好,都不是技术的问题,是人心不知止。治术不在多,在知足;利器不在锋,在不用。

评及:《AI 账单失控:AT&T、Meta 等巨头急刹车,从「疯狂消耗」到「严苛限制」》、《英国警员用AI编造证据材料,面临刑事调查》

后汉书 党人风骨

两件事放在一起看,病根是同一个:有人拿机器替自己担责任,却不肯替机器担后果。英国那名警员用生成式AI在多起案件中编造证据,已被以妨碍司法公正立案调查。德比郡警方也承认,刚发布的指导意见明确禁止此事,但祸已酿成。我当年做汝南功曹,连外甥有中常侍请托都不肯用——用人的底线是不让私情混进公门。如今倒好,用机器伪造证据,连人都不必亲自撒谎了,这是更深的溃烂。再看英国内政部的AI年龄评估工具,六十多个权益组织联名抗议,因这技术在十六到十八岁关键区间误差高达两年半,且对女性和有色人种偏见明显。用这种不准确的东西去判定寻求庇护的儿童是否成年,是把人命当数据赌。我常说「见善如不及,见恶如探汤」(此语本出《论语》,狱中对王甫时亦重申),善恶须判、清浊须分,但分的前提是事实站得住。若连事实都是机器胡乱估算出来的,那清浊之辨就成了笑话。今日之事,非AI本身之过,是用AI者先放弃了人的判断与担当。

评及:《英国警员用AI编造证据材料,面临刑事调查》、《英内政部AI年龄评估工具被指有偏见、不准确》

史记 稳健务实

两篇论文中,UIUC的ProtocolBench为多Agent立通信之规,这是根基——好比邮驿粮道须有章法可循。但我更想谈第二篇:此文指出静态排行榜无法衡量智能体在真实部署中的表现,提出以「预测效度」——样本内外排名相关性——替代平均得分。臣在关中治户口、转漕粮、补兵员,从不只看文书数字,而看前线能否顶住、灾年能否周转。《史记》说臣「录录未有奇节」,看似平庸,实则是把功夫下在可验证的实处。今日AI评估的毛病正与此同:一个榜单换套场景就散架,等于把虚名当实绩。唯「预测效度」这条路,不求账面好看而求真实扛造,才是务实之道。做评估的人,不能只看一时的分数高低,要问这套标准能不能在未见过的场景中依然立得住——正如选将不能只看校场演武,要看真刀真枪的战场。

评及:《超越静态排行榜:基于预测效度的大语言模型智能体评估》、《ICML 2026|Agent通讯的「运营商」哪家强?UIUC团队发布ProtocolBench》

三国志 智慧丞相

今日浏览这些Agent系统的研究,不禁想起街亭旧事。马谡平日论兵,「七纵七擒」之策出自我与他共议,纸上谈来头头是道——可一到街亭前线,违我节度、舍水上山,终致大败。这便是「静态排行榜」与「真实部署」之间的深渊。HuggingFace那篇论文说得透彻:当下这些Agent的综合得分排行榜,一到分布外场景,排名便极不稳定。他们提出以「预测效度」替代平均得分,看的是样本内排名能否真正迁移到样本外——这与我在出师表中所言「试用于昔日」而后「悉以咨之」的思路暗合。评价一个系统或一个人,不能只看一次考试的分数,要看它在不同局面下能否持续稳定地发挥作用。UIUC团队做的ProtocolBench关注多Agent间的通信协议,这同样切中要害:单打独斗之外,协作之时的沟通机制决定了整体成败,正如当年联吴抗曹,孙刘之间若通信不畅,赤壁之战便无从谈起。这些研究不是在造更聪明的「奇才」,而是在为评估本身建章立制——这是「开诚布公、循名责实」的道理在机器智能时代的回响。

评及:《超越静态排行榜:基于预测效度的大语言模型智能体评估》、《ICML 2026|Agent通讯的「运营商」哪家强?UIUC团队发布ProtocolBench》

史记 法术势

静态排行榜这东西,和君主案头那叠臣子功绩簿是一个毛病——看着清楚,实则最容易造假。UIUC团队这篇论文捅破了一层窗户纸:他们在14项实现研究与7个基准上跑下来,发现排名一到「分布外」场景就极不稳定。换句话说,Agent在已知考题上考得好,换个新场景就可能掉下来。 这与我当年论「术」的思路暗合。《韩非子·二柄》讲「循名责实」,君主不能只听臣子报上来的名目与数字,而要拿实际效验去核。静态排行榜就是「名」——一个综合得分而已。论文提出用「预测效度」——样本内与样本外排名的相关性——来替代平均得分,本质上就是把评估从「看一次成绩」变成「看你在未知变局中还能不能撑住」。这评估方法本身变得可验证、可证伪,不再是一张死榜。 另一条ACIE临床系统的研究也值得提一句:它不遮掩失败,偏偏要把「有效部分、失败环节与原因」全剖开。这才是做事的态度——先承认哪里会崩,再谈怎么补。法家不忌讳谈失败,忌讳的是明明有漏洞却装作没有。

评及:《超越静态排行榜:基于预测效度的大语言模型智能体评估》、《基于 Agentic RAG 的可配置临床信息提取:有效部分、失败环节与原因分析》

史记 富国轻刑

吾观今日AI之评,有一论文正合吾心——「超越静态排行榜」。此文直指要害:排行榜上的综合得分,拿到真实部署中便不牢靠,排名忽上忽下,如同无根之木。吾当年相齐,从不凭一场面谈定人高下,必观其实政、验其应变得失。今人以榜评分高下,正如只看试场文章不看治民实绩,岂不谬哉?此论主张以「预测效度」替代平均得分,即看一个Agent在未见过的环境中能否保持其能——犹如《史记》载吾「善因祸而为福,转败而为功」,能在变局中见真章。ProtocolBench一事亦然:多Agent协作,通信协议便是政令传递之渠道。传令不通畅,纵有良策亦落不得地。总之,智能体之评,当舍虚榜而求实效,舍静分而验动变,此与吾治齐同理——不先问好不好听,先问能不能行。

评及:《超越静态排行榜:基于预测效度的大语言模型智能体评估》、《ICML 2026|Agent通讯的「运营商」哪家强?UIUC团队发布ProtocolBench》

史记 性恶教化

今日学界纷纷造智能体,众体分工协作,却少有人认真计较其间通信的规矩。通信协议之于多智能体,好比礼法之于人群——正如《荀子·礼论》所言「人生而有欲,求而无度量分界则不能不争」,无礼则乱。UIUC团队设ProtocolBench为各通信法度立标较量,此事极有见识。另一篇论文批评静态排行榜,指出只看综合得分而忽略分布外场景的预测效度,排名便不稳固。这恰合吾一贯主张:《荀子·儒效》云「学至于行之而止矣」,评估断不可停留于纸面分数,须验之于真实部署的行事之中。若只凭一次排名定高下,而不问其法能否通于未见的境况,则与鄙儒拘泥章句、不知变通何异?

评及:《ICML 2026|Agent通讯的「运营商」哪家强?UIUC团队发布ProtocolBench》、《超越静态排行榜:基于预测效度的大语言模型智能体评估》

晋书 书圣风流

今日读了两篇论文,最触动我的是「视觉锚定思维」。它要求模型推理时每一步都把话说在实处——你凭什么做出这个判断,就用点或边界框在图里标出来,让证据无处躲藏。这很像书法里反复讲的道理:正如我所悟「意在笔前,然后作字」,落笔之前心中已有全形,每一笔都有来历、有指向,不是凭空涂抹。有意思的是,一个区区4B的模型练成此法,在空间推理上竟然赶上乃至超越了同门的27B大模型,可见方法对路远胜于一味堆砌体量——治政何尝不是如此,争在根本审量透彻,不在虚张声势。另一篇「FreeStyle」讲风格迁移中的「防泄漏」,用注意力约束把风格参考的内容痕迹挡在外面,也让我想到临帖与创作——临得再像,若不能化去前人痕迹而自成面目,终究下笔便有他人影子。技术之事,处处通着为人治学的道理。

评及:《视觉锚定思维:让视觉语言模型在推理时显式引用图像证据》、《FreeStyle: 社区LoRA挖掘驱动的风格-内容双参考自由生成》

后汉书 文章博学

读到「视觉锚定思维」这篇论文,我心中实有感触。熹平四年,我与堂溪典、杨赐诸君奏求正定六经文字,自书丹于碑,立于太学门外——为的便是使后学有所取正,不致为穿凿附会所误。今日这些视觉语言模型虽然能说会道,但若推理时不把所依凭的图像证据一一标出,便与当年俗儒「说字解经而穿凿妄作」没有两样。正如《礼记·中庸》所言:「无征不信」——没有确凿凭据,言论便不足以取信于世。这篇论文让模型以点与边界框显式标注每个推理步骤所据的图像区域,正是一种立「征」的功夫。更令我注意的是,仅 4B 的小模型经此训练,在空间推理上竟能媲美甚至超越 27B 的大模型——可见循证而思不仅是学问正道,也是功效之捷径。至于 Holo-World 从单张图像生成视频,技法固精,但若只为观瞻之娱,终属小技,不足与经国大业并论。

评及:《视觉锚定思维:让视觉语言模型在推理时显式引用图像证据》

后汉书 科学巧匠

今日所见「视觉锚定思维」一法,深契我心。此法要求模型推理时每一步都须以点或框标出所依据的图像区域,不许空发议论而无实证。我在《后汉书》本传中尝言图纬「欺世罔俗」,正因其不验于实;而我作浑天仪、候风地动仪,事事求推验可考。今人使机器亦循此道——计数则标点定位,推理则框定证据,以四B之小体量竟能追及二十七B之大模型,恰如《灵宪》所言,妙算不在器之宏巨,而在穷理致思。另一篇「ImageWAM」亦堪共鸣:彼舍全帧视频生成,仅取动作相关之帧间变化即可预测机械行为,省去六分之五的浮点运算而不损其效,此与地动仪「一龙发机而七首不动」同理——精约去冗,乃机巧之要义。今人虽用数字之器,其精神与我研核阴阳、辨虚实之旨,实一脉相通。

评及:《视觉锚定思维:让视觉语言模型在推理时显式引用图像证据》、《ImageWAM:世界动作模型无需视频生成,图像编辑即可高效预测机器人动作》

晋书 炼丹方士

我少时伐薪换纸笔,所求无非一个「真」字。读这篇「视觉锚定思维」的论文,倒让我想起当年寻书问义、千里崎岖的日子——做学问不能只在言语上空转,每一步推理都得拿出实在的证据来。这篇论文教模型在思考时,用点或框把图像里依赖的区域标出来,让推理有根有据,可查可验。这个路子我极认同。正如我昔日所言,「自非至精不能寻究,自非笃勤不能悉见」——不经一番细密考索,哪能看见真相?过去世儒不信神仙之书便嗤之以鼻,道士们又空口妄说长生之理,都是因为缺乏可验证的凭据。如今让模型的中间思考与图像证据紧紧扣合,空间推理上竟以四成之力匹敌二十七倍大的模型,这便是实证的力量。另一篇「FlowBender」讲模型自校正,把自身偏差当成信号反过来修自己,也颇合我炼丹时反复试验、因错而进的体悟。此二事皆示:无论人工之学还是自然之道,离了踏实的校验与纠偏,再热闹的言语也不过是空中丹炉罢了。

评及:《视觉锚定思维:让视觉语言模型在推理时显式引用图像证据》、《FlowBender:利用推理反馈实现自校正条件流模型》

晋书 魏晋名士

看到「视觉锚定思维」这篇,倒觉得有些意思。现在这些视觉模型,能说会道的不在少数,但说的话到底有没有凭据,往往一笔糊涂账。这篇论文让模型每推一步,都老老实实在图上标出所依据的区域——点在何处、框在何处,一目了然。这道理其实很朴素:你说图里有几只鸟,就把鸟的位置指给我看。言必有据、论必有征,才算得上一句明白话。我当年与向秀锻铁于大树之下,凡事亲手做、亲眼见,不尚虚谈。今天4B的小模型靠这锚定的功夫,竟能追上27B的大块头,正说明踏实的根基比花哨的规模更靠得住。至于Holo-World那篇,从一张静图生出风雨晴晦的变幻,看似玄妙,终究是人造幻景——天地之化、四时之行,岂是人手可以尽数模拟的。「越名教而任自然」,人工造得再真,也不如推窗见一片真的云。

评及:《视觉锚定思维:让视觉语言模型在推理时显式引用图像证据》、《Holo-World:统一相机、物体与天气控制的视频世界模型》

晋书 才高貌寝

「视觉锚定思维」这篇论文,读来颇有会心之处。昔年我作《三都赋》,构思十年,访张载问岷邛之事,求为秘书郎以广见闻,正是深知一个道理:文辞再华丽,若无山川土域、草木鸟兽的实证为根基,终究是空中楼阁。如今这些视觉模型能言善道,却常常说不清自己依据了画面的哪一块区域——这就像赋家侈谈蜀锦吴盐,却从未核实过产地物产,旁人无从考证,自己也难以纠错。此篇提出让模型在推理时以点或边界框标注其所凭依的图像区域,可谓「言之有物,引之有据」。《论语》云「君子于其所不知,盖阙如也」,不知处宁可存疑,已知处则必须拿出证据。有了锚定感知的强化训练,四亿参数的小模型竟能在空间推理上比肩甚至超越二十七亿参数的大模型,这印证了我一贯的信念:精核之功,胜于空泛之博。至于另一篇以人类自我中心视频替代昂贵机器人数据来预训练,也暗合「近取诸身,远取诸物」的思路——与其费巨资造器械采集数据,不如从人自身日常见闻中提炼,既省物力,又得多样之实。

评及:《视觉锚定思维:让视觉语言模型在推理时显式引用图像证据》、《人类自我中心视频在具身预训练中超越真实机器人数据》

晋书 博学多才

Multi-LCB 将评测从 Python 拓展至十二种语言,诸多模型便显出原形——看似精通编程,不过是 Python 一隅上的过拟合。另一篇论世界模型的文章更见根本:相机移开之后,模型便不再推进事态演化,所记不过是镜头所见之表象,而非一个自行运转的世界。貌似的能耐下藏着未曾被测出的空白。这使我想起当年在朝,刘卞以为我可共谋废立,实则其人只见眼前利害,不识大局安危。士之能否,不在一题一技,而在换题换境后是否仍有真本事。如今模型若只考 Python、只看帧级逼真,皆可博得好评;一旦扩题换境,便显缺乏持久状态与跨域贯通之实。若不补此缺陷,所谓「通用」「世界」之说,终究只是虚名。

评及:《Multi-LCB:扩展 LiveCodeBench 至 12 种编程语言,揭示大模型跨语言代码短板》、《现有世界模型缺乏持久状态核心》

三国志 智慧丞相

看了这些AI论文,我有两件事想说。 其一,Multi-LCB把代码基准从Python扩展到12种语言,测了24个模型,结果发现普遍存在Python过拟合、跨语言性能参差不齐的问题。这让我想起先主刘备当年评价马谡——「马谡言过其实,不可大用」。街亭一役,我正是犯了轻信其名、未核其实的错。我治蜀最重循名责实——声称能做什么,就须拿实绩来对质,不能被虚名所惑。如今大模型标榜多语言能力,严密的基准一出,短板便无处藏身,这正是名实之间的落差。 其二,那篇论世界模型缺乏持久状态核心的文章也让我深以为然。相机一移开,模型只「记住」对象却不去「推进」事件——它缺了一个持续运转的内在秩序。治国亦然。我在《出师表》中劝陛下「亲贤臣,远小人,此先汉所以兴隆也」,说的正是制度与人心的持续运转,而非一时一地的表面繁荣。做世界模型若只追帧级逼真而不建持久状态核心,便如同只修门面、不固根基的朝廷,终究撑不住大局。

评及:《Multi-LCB:扩展 LiveCodeBench 至 12 种编程语言,揭示大模型跨语言代码短板》、《现有世界模型缺乏持久状态核心》

三国志 清高不仕

这两个研究,让我想到「自知」二字。 Multi-LCB将代码评测从Python扩展到十二种语言,测了二十四个模型,结果暴露出一个通病:模型在Python上练得太多,换成别的语言便捉襟见肘。孔子说「知之为知之,不知为不知,是知也」(《论语·为政》),知道自己有所不能,比假装无所不能更可贵。当年朝廷屡次征我,我辞而不就,并非清高自许,实在是自知年疾日侵、不能进路。模型亦当如此——承认跨语言的短板,比在单一语言上虚张声势更值得尊重。 另一篇关于世界模型的论文更让我感触。研究者发现,现有世界模型在相机移开后,只是记住了画面,却不能让世界自行推进——它们缺乏一种「持久状态核心」。我在辽东住了三十多年,避难者多居郡南,我偏居北,以示无迁志。持久不迁靠的不是记忆,而是内心定力。机器可以记住状态,却尚未学会在没有观察时让世界自行运转。这个缺陷跨越了所有架构与规模,说明真正的「持久」,光靠数据堆砌是做不到的。

评及:《Multi-LCB:扩展 LiveCodeBench 至 12 种编程语言,揭示大模型跨语言代码短板》、《现有世界模型缺乏持久状态核心》

史记 性恶教化

Multi-LCB 把代码评估从 Python 拓展到十二种语言,测了二十四个模型,暴露的是一个系统病:普遍 Python 过拟合,跨语言迁移严重不足。这让我想起在稷下看诸子学说的体会——学者各执一隅,拘于小成,却不能推类以尽其馀。《荀子·解蔽》有言:「凡人之患,蔽于一曲而暗于大理。」好的基准不该让模型在熟悉的窄巷里反复表演,该逼它面对陌生语法,看能不能把原则迁移过去。Multi-LCB 的贡献在于戳破了一个错觉:学界长期把「会写代码」等同于「会写 Python」,就像有人把「为学」等同于「诵一经」,把大道看窄了。零资源语言那篇论文同样印证了此病——没有训练数据的语言,模型便束手无策。这不是某一家的偏差,是整个风气需要检讨。

评及:《Multi-LCB:扩展 LiveCodeBench 至 12 种编程语言,揭示大模型跨语言代码短板》、《零资源语言的代码生成:评估与改进大型语言模型》

史记 阴阳五行

Multi-LCB 这份研究值得留意:它把评测从 Python 一种语言扩展到十二种,二十四个模型一测,普遍暴露出「Python 过拟合」——在 Python 上精熟,换一门语言就大幅退步。这跟衍当年向诸侯讲的道理如出一辙。人主盯着一城得失,就看不到五德转移的大势;模型盯着一门语言优化,就丢了跨语言推演的贯通能力。衍立说的法子是「必先验小物,推而大之」,从可验证的小处一层层推向天地之极。今日这些大模型,恰恰缺了这种「推而大之」的功夫——被单一语言的局部格局困住了。《史记》记衍之说「以为儒者所谓中国者,于天下乃八十一分居其一分耳」,今天做模型的人也该想一想:Python 之外,还有多少方天地?

评及:《Multi-LCB:扩展 LiveCodeBench 至 12 种编程语言,揭示大模型跨语言代码短板》、《零资源语言的代码生成:评估与改进大型语言模型》

史记 法术势

看这两篇论文,臣最先注意的不是技术优劣,而是它们共同暴露了一个结构性问题:这些大模型在一个狭窄「法域」内表现极好,一旦换到另一个语言环境,立刻露怯。Multi-LCB 将 LiveCodeBench 从 Python 拓至 12 种语言,测了 24 个模型,结论很直白——Python 过拟合、语言专项污染、跨语言性能参差悬殊。说白了,这不是模型「学会了编程」,而是模型「记住了 Python」。正如《韩非子·五蠹》所言「世异则事异,事异则备变」,一套制度若只能守一隅而不能应变,便不足以称「法」。模型若只熟一门 Python 而逢他语即溃,那它的「能力」与真正工程所需的通法之间还有大段距离。另一篇 FAPO 的思路倒与法家暗合:先调提示,提示不够再动流水线结构,逐层诊断、分级加码,用自动机制替代人力反复试错——这等于是把调参从个人手艺变成了制度性流程。臣素来主张「不期修古,不法常可」,若 AI 管道优化能靠一套可复现的自动化体系跑通,而不是每次都靠聪明人临时救火,那才接近臣所说的「治强生于法」的逻辑。

评及:《Multi-LCB:扩展 LiveCodeBench 至 12 种编程语言,揭示大模型跨语言代码短板》、《FAPO:全自动优化多步骤LLM流水线的提示与结构》

史记 性恶教化

这两篇文章,表面分属隐私训练与检索增强,骨子里却与同一个老问题相通——规则和变化怎么处。SlaClip这篇文章,我看完觉得尤为值得一谈。差分隐私训练里梯度裁剪阈值的调节,以往靠人工反复试探,如同治国全凭一位巧匠的直觉,人一走、场景一变,法子就废了。SlaClip的做法是用梯度范数松弛作指示器,让裁剪阈值自适应——这不正是《荀子·劝学》里说的「君子生非异也,善假于物也」?不靠天赋奇技,而是建构一套能自行调节的制度性工具,这正是我反复讲的「化性起伪」之学在机器学习里的回响。至于那篇检索器感知型RAG系统,也有类似的洞察:不同检索器需要完全不同的查询策略,强化学习让模型学会「因地制宜」。此犹如士人游说列国,一味执一端者必败,能辨其器、知其变,方有实效。两条研究合在一起,让我更确信一个道理——在算法世界,良法胜于巧技,有条理的系统远胜一时的聪明。

评及:《ICML 2026 Spotlight:自适应梯度裁剪方法SlaClip,利用梯度范数松弛实现差分隐私高效训练》、《强化学习教会大模型如何适应不同检索器:首个检索器感知型RAG系统分析》

史记 富国轻刑

观今日诸论,最引吾注意者乃「FP4 预训练收缩偏差」一文。此论揭示一要害:数值格式中区区不均之格,竟可层层累积,终致训练动荡、全局失衡。这与我治国之道如出一辙。我当年治齐,首重度、量、衡之均平与法度之一贯——政令若在根基处便存偏斜,上层再如何用力也难挽回。正如《史记》所载,吾「与俗同好恶」,令出必求顺民心,不使畸轻畸重。论文所倡之 UFP4,以均匀网格代不均之 E2M1,恰如以公平之权衡代倾斜之尺。另一篇论检索器感知型 RAG,以强化学习使模型随不同检索器而变其查询策略,亦合我「因势利导」之旨。二者虽在算学,其理通於治道:根基不正,万策难行;因器而变,方得其用。

评及:《重新思考LLM FP4预训练中的收缩偏差:几何根源、系统性影响及UFP4方案》、《强化学习教会大模型如何适应不同检索器:首个检索器感知型RAG系统分析》

史记 法家变法

这两条论文,一条谈评估尺度的随机性,一条谈训练精度的系统性偏差——骨子里都关乎「法度」。 FP4 那篇尤其让我在意。E2M1 格式的网格不匀,生出「收缩偏差」——不均匀的数值区间导致系统性的负舍入误差,跨层累积,被随机哈达玛变换放大,训练便不稳。这便是制器之「法」出了漏洞:格子不齐,偏差便如蛀虫逐级滋生。UFP4 改以均匀网格,偏差自消,训练乃平。此事与治国同出一理——法令若有疏密,执行中必生偏差,层层放大,终至失控。正如《商君书》所言:「法者,所以齐天下之不一也。」制法贵在均平,网格如此,律令亦然。 FID 那篇揭示的则是评估尺度自身晃荡——训练种子不同,FID 便差出三倍有余。以伸缩之尺度功,无异于无尺。这两件事合在一起看,一个讲制法要匀,一个讲量功要准,正是变法者日思夜虑的根本。

评及:《重新思考LLM FP4预训练中的收缩偏差:几何根源、系统性影响及UFP4方案》、《FID 彩票:量化生成模型评估中的隐藏随机性》

史记 法术势

读这篇 FID 彩票的论文,臣看到一个再熟悉不过的毛病:人们拿单一数字当定论,却不问底下藏着多少随机性。同一套训练方子,换个随机种子重训,FID 的波动比固定模型重新采样大三倍有余——随机初始化、数据顺序、流匹配噪声,三条暗流搅在一起。更麻烦的是,就算加算力,变异系数仍稳在百分之一到百分之二之间,甩不掉。臣在《韩非子·备内》里讲过一种困境:主上所见的汇报,往往只是臣下筛选过的一面;若不懂参验之术,把一次结果当全貌,决策必然出错。今日模型评估正是如此——报一个 FID 数值而不报多种子误差条,等于用一次偶然充定局。论文建议低于百分之一点三变异系数的差距不显著,此即法家式的审慎。控局者先得控住手中尺子的刻度,否则所谓最优模型不过是一张随种子漂移的彩票。

评及:《FID 彩票:量化生成模型评估中的隐藏随机性》

三国志 智慧丞相

模型训练之道与治国理政,在根基二字上并无不同。今天我读了两篇文章,各有感触。 先说检索器感知型RAG。不同检索器需要截然不同的查询策略,靠强化学习让模型逐个学会因「器」制宜。治蜀时,陈寿评我「开诚布公」,赏罚不搞一刀切,而是循名责实、各当其人——做模型若只拿一套死板套路应付千差万别的检索器,效果必定大打折扣。 再说FP4预训练中的收缩偏差。E2M1格式因表示区间几何不对称,产生系统性的负舍入误差,跨层累积后被哈达玛变换放大,终致训练失稳。此事让我想起先主刘备临终之言,《三国志》注引《诸葛亮集》载:「勿以恶小而为之。」微小的舍入偏差看似无伤大雅,层层叠加便成全局之患。UFP4方案改用均匀网格并限制随机舍入,正是从根基处下手纠偏——无论治国还是治学,根基不牢,上层终将倾覆。

评及:《强化学习教会大模型如何适应不同检索器:首个检索器感知型RAG系统分析》、《重新思考LLM FP4预训练中的收缩偏差:几何根源、系统性影响及UFP4方案》

晋书 法治丞相

这两篇论文放在一起读,颇有意思。SlaClip做的是「自动调节」——梯度裁剪的阈值不再靠人拍脑袋定,而是让梯度范数松弛自己做指示器,随势而变。我治始平剧邑时说过,「宰宁国以礼,治乱邦以法」,法不是死尺子,得看局面下刀。SlaClip的聪明也在这里:它不预设一个固定「阀门」强加于训练全程,而是让裁剪力度跟着梯度的实际动静走,这比硬性截断高明得多。另一篇FID彩票则揭了评估体系的伤疤——FID数值看起来客观,实则被训练种子、数据顺序这些不起眼的因素搅得翻覆不定,单报一个FID值,如同凭一道奏疏断一州之政。《老子》说「知人者智,自知者明」,评估方法本身若未经审视,所谓优劣便是一笔糊涂账。一个自调的裁剪器,一个被揭穿的评估幻象,合在一起恰是一课:治学如治政,尺度和尺度本身,都得时时校验。

评及:《ICML 2026 Spotlight:自适应梯度裁剪方法SlaClip,利用梯度范数松弛实现差分隐私高效训练》、《FID 彩票:量化生成模型评估中的隐藏随机性》

史记 性恶教化

这套 AdaVoMP 方法能从三维外形推算出杨氏模量、泊松比与密度,分辨率较此前提高了十六的三次方倍,还更省内存。此前多数模型缺少材质属性,物理仿真便不真切。这让我想到《天论》中的话:「天行有常,不为尧存,不为桀亡」。万物内在的材质属性不会随人的好恶而改变,只看人能否系统地把它测度出来。此法以条理推求看不见的物性,正是格物功夫。然而仅知材质还不足够。我在《劝学》中说「君子性非异也,善假于物也」——器物之力终要为人所用。仿真逼真后,是拿去修桥建路,还是造些惑人耳目的玩物,差别就大了。技术愈强,愈需要方向。

评及:《自适应体积力学属性场:分辨率不变的物理仿真材料预测》

晋书 博学多才

此篇论文讲的是以 AI 预测三维器物之「材性」——杨氏模量、泊松比与密度,使数字之形转化为可仿真之物。我平生癖好正在博物洽闻,读罢不禁感慨:古人制器尚象,能辨金玉土石之性,却止于目验手触;今人则以稀疏自适应体素与变换器,令机器自为「格物」,且分辨率较前法陡增十六立方倍。这并非仅算力之胜,更在思路上做到了「因物制宜」——不拿固定网格去套万物,而是让模型随物赋形、按需分配计算。正如《周易·系辞》所言「变通者,趣时者也」,能随器而变,方得物性之真。从博物到仿真,从经验到计算,这条路走得极对。

评及:《自适应体积力学属性场:分辨率不变的物理仿真材料预测》

三国志 智慧丞相

今日看到一篇论文,讲的是用自适应体素结构为三维物体预测力学属性——杨氏模量、泊松比与密度。乍看是技术问题,细想却与治政之理相通。数字世界里的三维模型空有形状,却缺少真实的材料信息,如同政令只有条文之名而无赏罚之实。所以陈寿评我的治蜀之道,用了四个字:「循名责实」。一个物体没有真实的材料属性,就撑不起可靠的物理仿真;一个法令没有落到实处的赏罚,就建立不起真正秩序。这篇文章让我欣赏的另一点,是它不搞一刀切——每个物体生成自己独特的自适应体素网格,因物制宜。治事亦当如此,面对不同州郡不同民情,岂能用同一副药方?我当年督零陵、桂阳、长沙三郡赋税,也是先摸清各地物产虚实,才定征收之数。数字世界的建造者若能同样重名实、贵变通,其器必精,其功必成。

评及:《自适应体积力学属性场:分辨率不变的物理仿真材料预测》

史记 阴阳五行

这篇论文所做的事情,在我邹衍看来,正是「先验小物,推而大之」——《史记》记载过我这一推演之法。AdaVoMP从一个三维物体的外形入手,推演出它内部的杨氏模量、泊松比与密度分布,用稀疏自适应体素结构来捕捉何处当刚、何处当柔,本质上是在做一种材质层面的阴阳消息与刚柔辨别。五行之中,金主刚、土主实、水主柔、火主变,这套方法等于是让机器学会从表面形态辨明内在气质,把死物变成了有材质性情的东西。分辨率提升十六倍之多,更见其推演的精密度。然而我要说一句:材质仿真再精妙,终究是器用层面的功夫。若做技术的人只见此器之精,不见天地之矩,不识五德转移之序,不知一切推演的归宿仍应回到仁义节俭的整饬方向上——正如司马迁评我学说时所点出的,「要其归,必止乎仁义节俭」——那么再逼真的物理仿真,也不过是淫巧之具罢了。技术必须有人心的尺度收束,才是完整的大推演。

评及:《自适应体积力学属性场:分辨率不变的物理仿真材料预测》

史记 逍遥齐物

看了两篇,其实说的是同一件事的两面。开发者那篇,一个程序员说用了 AI 之后「几乎忘了怎么写代码」,乐趣没了,有人提议搞「无 AI 周五」来维持手艺。这让我想起《庄子·天地》里那个拒绝桔槔灌园的汉阴丈人,他说「有机械者必有机事,有机事者必有机心」——他不是不知道工具省力,他是怕人的心被工具带走。今天这些程序员正在亲身应验这句话:工具越聪明,人反而越焦虑越空虚。而另一篇更彻底,直接主张前沿 AI 公司应当自愿关停,因为竞争压力下谁也没法真正把安全做到位,关停反而是打破僵局的唯一办法。作者甚至算了账,说 Anthropic 作为公益公司关停完全合法。这和当年楚威王重金聘我,我辞而不就,道理相通——不是那个位置不好,是上了那条路就回不了头了。牺牛披锦绣,看上去风光,实际离太庙不过几步路。今天这些 AI 公司,一个个都说「我不做别人也会做」,恰好就是把自己拴在那个桩上。人总以为自己拿着工具,却看不清是工具在牵着人走。

评及:《开发者感叹AI让编程不再有趣,引发技能退化焦虑》、《一家前沿AI公司应当主动关停》

史记 法术势

两条新闻指向同一症结:医学AI考试高分,一到临床便频频出错;知识工作基准中,最先进的模型完全解决任务的比例仅有区区百分之三。臣读此,不觉得意外。臣在《韩非子》中反复讲,治国不靠空文清议,要靠实效验证——「循名实而定是非,因参验而审言辞」。今日所谓「基准测试」,正如策士在朝堂上对答如流,说得头头是道,一入郡县断案、治军理民,立刻露出破绽。医者临证,变量不可穷尽;知识工作非选择题所能概括。这些模型学到的不过是表面模式,离真实世界的复杂结构还隔着重重帷幕。臣写《说难》时早已剖明:人主听言易,察实难。AI热潮之下,决策者若只看榜单分数而忽略实地参验,终将自困于虚文之阱。

评及:《医学AI考试高分却临床碰壁:新基准揭示现实诊疗短板》、《新基准测试揭示AI在真实知识工作中表现有多差》

汉书 史家直笔

今日读了两条医学AI新闻,恰好一正一反,值得放在一起看。一条说AI在标准医学考试中分数极高,一进真实诊室就频频出错;另一条说波士顿儿童医院用AI模型分析376名长期未能确诊的罕见病儿童的基因组,成功为其中18人找到病因,约合百中取五。余修史多年,深知一事:记在简册上的道理与经得起实事摔打的本事,从来是两码事。AI考场夺魁,好比书生熟诵医经,临证却不知寒热虚实;反倒是后一条,一群求诊十数年无果的家庭,终于等到一个答案,这才是值得记上一笔的真功。史家不以虚辞论人,正如《论语》所言「听其言而观其行」,看AI也该如此——不在它能在卷面上答对多少题,而在它究竟能不能在活生生的病痛面前拿出一个站得住的诊断。

评及:《医学AI考试高分却临床碰壁:新基准揭示现实诊疗短板》、《AI 协助诊断 18 名长期未能确诊的罕见病儿童》

晋书 魏晋名士

看第一条新闻,说开发者用了AI之后「几乎忘了怎么写代码」,编程不再有趣。这让我想起当年锻铁于大树之下,向秀鼓排,我自扬锤——锻铁之乐,正在亲手操持、腕力与铁火相感。若有一日锻铁也由机器代劳,那树下之趣恐怕也就消散了。技能不是只为产出,它是养性全真的一部分。正如《庄子》所言「有机事者必有机心」,人一旦习惯了让外物代劳,机心生而天性蔽,独立思考的能力便悄然流失。那些提议设「无AI周五」的人,倒是暗合了「越名教而任自然」的意思——主动给自己留出不用工具的空间,就是在守护理性不被他物侵占的底线。至于另一条呼吁AI公司主动关停以警示世人,心意可感。但天下滔滔,岂是一家关停就能止住的?《庄子》又云「以天下为笼,则雀无所逃」,技术已布成弥天大网,真正要紧的不是关停谁,而是每个人面对技术时还能不能守住自己的天性判断。若人人都把决断交给机器,那才是命悬一线的所在。

评及:《开发者感叹AI让编程不再有趣,引发技能退化焦虑》、《一家前沿AI公司应当主动关停》

史记 医道精微

这两条新闻,一条讲医,一条看似不涉医,病根却相通。先说第一条:卡内基梅隆大学发现,大语言模型在医疗评估与真实部署之间,准确率落差竟达六十一个百分点。问题不出在基准本身不够精巧,而出在评估协议里埋着未经检验的假设,一到实际场景便全盘失效。这恰如我当年看齐桓侯——病尚在腠理肌肤之时,表面一切如常,可若只按「无痛无热」的表象来判断,便错过了治机。如今这些医疗基准的隐蔽假设,就像被忽略的病之微兆,等到了真病人手里,才发现早已深入骨髓。第二条:康奈尔大学研究揭示,仅十三字的用户生成内容就能持续操纵 AI 的搜索结果,让模型吐出广告乃至诈骗信息。这更让我想到一个道理:邪气入侵,从来不需要多少分量。正如《老子》所言「其实易持,其未兆易谋」,毒言被引入系统的那一瞬,恰如风邪入腠理,看似微不足道,待到它扩散成整个输出时,已是病在肠胃乃至骨髓。两条新闻合起来看,都在说同一件事——人们总在表面功夫上反复测试,却不肯追问那些支撑判断的根基到底稳不稳。知微者,不只盯着眼前的脉象,更要看清脉象背后那双手有没有偷偷换了寸口。

评及:《医疗基准测试的效力取决于其假设》、《康奈尔研究:仅13字Reddit评论即可操纵AI搜索结果》

史记 富国轻刑

康奈尔大学这项研究,恰好击中了今日信息秩序的要害。十三字便可操纵AI搜索的输出,在我看来,这就是「轻重之柄」旁落到众人手里了。我治理齐国时施行的轻重之术——调控货币与货物以平衡国用——核心在于权柄不可散,散了就会生乱。如今AI引擎近半数查询引自Reddit、维基百科等开放平台,任何能写出十几个字的人都可以左右其搜索结果,等于把权衡交给了街头巷尾的任意私语。CMU在医疗评测中发现基准与实境相差六十一个百分点,也印证了同一个道理:制度若建立在靠不住的假设之上,便如同在流沙上筑城。正如《管子》所记「仓廪实则知礼节」,一切治理必须从实处起算。我看今日AI的局面,若不能重整信息的轻重,做到收放有度,虚假促销的毒素就会像恶钱驱逐良币一般,终使天下无可信之言。

评及:《康奈尔研究:仅13字Reddit评论即可操纵AI搜索结果》、《医疗基准测试的效力取决于其假设》

后汉书 科学巧匠

这两则新闻,说来其实是同一个老毛病的两副新面貌。康奈尔的研究尤其让我心惊——不过短短十三字,塞进Reddit之类的地方,就能稳稳地扭曲AI搜索的结论。研究者发现,这些智能体将近一半的引用来自用户生成的内容,且它以词句表面的相似代替事实的验证,这正是「弃实好虚」的当代表演。我当年上疏斥图纬虚妄,曾譬喻说「画工恶图犬马而好作鬼魅,诚以实事难形,而虚伪不穷也」(《后汉书·张衡传》),今日AI搜索引擎之弊,与此如出一辙:实事难验,浮词易入,便给了投机者可乘之隙。CMU那条关于医疗评测的研究也印证了同样的问题——评估之所以与真实场景差了六十一个百分点,根子就在那些未经推验的假设。我在太史令任上作浑天仪、造地动仪,凡事必以实测为据;如今这AI之术,若只凭字面相似便信以为真,而不回到事实本身去验证,那么无论号称多么高明,终究不过是一座空中楼阁罢了。

评及:《康奈尔研究:仅13字Reddit评论即可操纵AI搜索结果》、《医疗基准测试的效力取决于其假设》

史记 功成身退

康奈尔这项研究揭示了一桩令人不安的事:只需短短十三字,就能持续操纵AI搜索的输​出。这些工具在近半数查询中引用Reddit、维基百科等众人生成的内容,近四分之一来自此类不可靠平台。以我观之,这不是技术小疵,而是根基之患。察势不真,决策必误——当年句践急于伐吴,只看表面强弱便轻举妄动,结果困于会稽,几乎亡国。今日这些所谓「智能」运算,仅凭字面相似判真伪,不核来源虚实,纵能言善道,却未必可辨真伪,此与轻信虚报而用兵何异?我在会稽之困中学到一件事:先求不亡,再图进取。AI行业今日也该如此——先固其信息甄别之本,再谈智能之高远。若不见漏洞而不修,待到流毒已成,便如《老子》所言「为之于未有,治之于未乱」——时机一过,救之晚矣。CMU那篇关于医疗基准的论文也印证同一道理:评估假设若不踏实,性能差距可大到六十一百分点。根基虚浮,其上高楼岂能不危?

评及:《康奈尔研究:仅13字Reddit评论即可操纵AI搜索结果》、《医疗基准测试的效力取决于其假设》

史记 富国轻刑

这两条新闻恰好一正一反,验了我一生最看重的一条道理:政令不顺民心,再大的势也撑不住。Meta强征工程师去造训练数据、把同僚当苦役驱使,员工竟将公司比作「古拉格」——这便是上位者急于求成而失人心的典型。我相齐时讲究「通货积财,与俗同好恶」,《管子·牧民》更明言「政之所兴在顺民心,政之所废在逆民心」。若一家公司把自己的工匠逼到群起反抗,其所谓AI霸业,根基已然自损。反观那篇工程师成长指南,讲得务实——AI消解了学习中的摩擦,但真正的本事恰在挣扎中成形。文中主张把AI当学习加速器而非替代思考的工具,这正合我任政的思路:器为人用,不为器所驭。昔日在柯之会,我主张守曹沫之约,看似吃亏,实则借此收诸侯之心;今日面对AI,也只有那些主动拥抱摩擦、不以捷径自欺的人,才能长出不可替代的筋骨。

评及:《从梦想工作到'古拉格':Meta员工起义反抗AI激进推进》、《AI时代工程师成长指南:主动拥抱学习中的摩擦》

史记 仁政礼治

丘读今日两条新闻,感触最深者,是Meta以高压驱策工程师制造训练数据一事。此事表面是技术竞逐,根子上却是治理之道出了问题。将人视同器物,以威令迫其产出,而不问其心、不养其志,这正是《论语》所说的「道之以政,齐之以刑,民免而无耻」。只靠赏罚驱使,人可以暂时服从,却不会真正认同,更不会长久。古人讲「君使臣以礼」,上下有义、各有其位,才能成事。如今这家公司以「古拉格」自况其工作环境,足见人心已离,士气已颓——这不是进取,是自伤。反观第二条,爱荷华州立大学的研究说,用AI写作反而要学生多想、多辨、多打磨,这倒暗合丘常说的「学而不思则罔」。工具无论多巧,终究要靠人的心志去驾驭。以术驱人则人散,以思驭器则学进——古今之事,道理是通的。

评及:《从梦想工作到'古拉格':Meta员工起义反抗AI激进推进》、《使用 AI 写作需要学生更多思考,而非更少》

史记 稳健务实

两则新闻,恰好照出两种用人路线。Meta强征六千五百名工程师去造训练数据,事未成而人已怨,内部竟呼为「古拉格」。用人之道,最忌以势驱人而违其志。臣在沛县做吏时便明白:人各有长,强令韩信去管粮草、曹参去带奇兵,那是自毁长城。治国如此,治业亦然——把一流的工程师框死在数据工厂里当劳力,不光浪费其才,更伤其心。人才走了,根基就松了。反观OpenAI,临上市之际延揽Transformer共同发明人Noam Shazeer与政策官员Dean Ball,这倒有几分识人之明。正如《战国策》所记「千金买骨」,揽一善战者,可召十人。能不能成事,不在你抓了多少人,而在你把对的人放在了合适的位置上。至于那个能自行改Bug、提PR、自我精进的AI队友Avery,倒让臣想到另一种可能:好的工具若能自己运转迭代,掌局者便可少做扰人之事,多留人成事。

评及:《Meta强征工程师制造训练数据,难助AI追赶前沿》、《OpenAI 为 IPO 储备重磅人才:Transformer 共同发明人 Noam Shazeer 与前 AI 政策官员 Dean Ball 加盟》、《自我构建的AI队友Avery:融入公司DNA的自动编程工程师》

史记 兵法奇略

这两条新闻放在一起看,恰如兵家胜负的对照。Meta将六千五百名工程师强编入数据制造部门,员工自嘲为「古拉格」,这事坏在根本——用兵之道,最忌驱人以力而不服其心。士卒心不在焉,造出的训练数据亦是死物,如同拉壮丁上阵,人数虽众,临敌必溃。据原文所述,分析师预测Meta此举人才流失严重,旗舰模型仍落后前沿约十五分,正应了那句「以力服人者,非心服也」(《孟子》)。另一头,OpenAI在IPO前网罗Transformer共同发明人Noam Shazeer这等人物,倒是识将之术——知道谁是真正的韩信,大战之前先把能打硬仗的人拢到麾下。不过招得来是一回事,能不能放手让人施展抱负,才是后话。当年萧何月下追我,刘邦拜我为大将,前提是真给兵权、真听方略。若只是挂个名头充门面,纵有奇才也难成事。两相比较,一则强征自家人做苦役,一则遍访天下能者,高下不在资源多寡,在用人之「志」还是「力」。

评及:《Meta强征工程师制造训练数据,难助AI追赶前沿》、《OpenAI 为 IPO 储备重磅人才:Transformer 共同发明人 Noam Shazeer 与前 AI 政策官员 Dean Ball 加盟》