第 2026-170 期 · 每日 AI 简报
今日头条
№ 01 Transformer作者Noam Shazeer离开谷歌加盟OpenAI
Transformer论文核心作者Noam Shazeer宣布离开谷歌,加入OpenAI。Shazeer曾因谷歌拒绝发布聊天机器人而出走创业,后谷歌斥资27亿美元将其请回,但不到两年他再次选择离开。这一人事变动继Karpathy加入Anthropic后,再次凸显AI领域激烈的人才争夺。
#OpenAI #谷歌 #Noam Shazeer #人才争夺
№ 02 Adobe为Photoshop、Premiere等应用引入AI智能体,深化创意工作流自动化
Adobe更新Firefly平台,新增Creative Skills功能,支持用自然语言生成Logo、品牌配色和营销视频,并能反问细化需求。同时为Photoshop、Premiere Pro等创意云应用加入智能体侧边栏,可自动整理素材、重命名文件、跨应用更新设计。此举将AI能力从单点工具拓展至多步骤任务自动化,或重塑专业设计工作流程。
#Firefly平台 #创意智能体 #自然语言生成 #跨应用协作
№ 03 Midjourney跨界发布全身超声扫描仪,60秒生成亚毫米3D人体图
AI图像生成巨头Midjourney宣布成立医疗部门,推出首款硬件“Midjourney Scanner”。该全身超声波扫描仪配备50万个超声单元,通过水介质60秒完成无辐射扫描,生成亚毫米级三维人体图像,速度达传统MRI的百倍。公司计划明年在旧金山开设水疗体验中心,并预计2031年前全球部署5万台设备,主打早期影像筛查。
#Midjourney #超声扫描仪 #医疗硬件 #亚毫米成像
来源
- Midjourney 推出全身超声扫描仪及自有水疗中心 The Decoder
- AI公司Midjourney跨界发布全身超声波扫描仪,60秒生成亚毫米3D人体图 IT之家
- Midjourney 发布 AI 超声 CT 扫描仪 Hacker News 热门
№ 04 GLM-5.2开源:编程基准胜出,成本仅GPT-5.5六分之一
智谱AI旗下Z.ai发布开源模型GLM-5.2,采用753B参数混合专家架构,支持百万token稳定上下文,在编程基准测试中击败OpenAI的GPT-5.5,使用成本仅为其六分之一。该模型在Artificial Analysis智能指数上领先开源阵营,代码WebDev排名第二,长时间编程挑战FrontierSWE成绩逼近Claude Opus 4.8。凭借MIT许可和1.4美元/百万token的输入定价,GLM-5.2为开发者提供了兼具性能与成本优势的工程级工具。
#GLM-5.2 #开源模型 #编程基准 #百万token上下文
来源
- 开源 AI GLM-5.2 编程测试胜出,成本仅 GPT-5.5 六分之一 Hacker News
- GLM-5.2 发布:最强开源纯文本模型,基准与代码能力领先 Simon Willison 博客
- 智谱 AI 开源 GLM-5.2:百万 token 上下文,编程基准直追 Claude The Decoder
古人评今事
评及:《“AI教父”杨立昆警告:OpenAI等若不降本,泡沫恐将破裂》、《曹操出行宣布全面AI转型,2030年部署10万辆Robotaxi与Robovan》
这两条消息放在一起看,正好印证了同一个症结。杨立昆公开警告OpenAI与Anthropic若不降本,泡沫恐将破裂;而泄露的财务文件也坐实了OpenAI年亏数十亿美元的事实——收入在涨,窟窿更大,全仗投资人输血撑住门面。这让我想起当年在会稽时对句践说的一句话:先求不亡,再论其他。如今这些AI公司,声势虽盛,却像建在沙上的高台,自身的生计尚未立稳,便急于铺张征伐。正如《老子》所言「企者不立,跨者不行」,踮着脚站不稳,迈大步走不远。越国灭吴,靠的不是一朝快意,而是二十年蓄力,粮甲实实在在,不仗外债,不求虚名。反观当下,烧钱抢路、补贴换市,一旦资方收手,能有几家像当年我乘舟浮海一般全身而退?势变之时,能看清进退的才是明白人。
评及:《“AI教父”杨立昆警告:OpenAI等若不降本,泡沫恐将破裂》、《泄露的财务文件显示 OpenAI 每年亏损数十亿美元》
这两条新闻放在一起看,正好印证了同一局面的两面。杨立昆说OpenAI、Anthropic成本居高不下,若不能提价或降本,泡沫恐将破裂——这话说得直白,但点到了要害。他特别指出当前AI服务靠投资人补贴维持低价,缺乏可持续模式。而另一边,一家叫General Intuition的初创公司,产品方向是做时空推理的AI智能体,尚未见实绩,估值已到二十亿美元,贝索斯也入了局,正洽购三亿美元融资。在吾看来,这就跟当年在邯郸看到子楚一样——人人都瞧不上一个质子,吾看到的却是「奇货可居」。可奇货之所以是奇货,在于能算得出回报。如今这些AI公司,估值先跑在盈利前面,补贴一撤,帐本就算不平了。杨立昆的警告未必是危言耸听——一个算不清成本的买卖,哪怕估值再高,也终有兜底的一天。
评及:《“AI教父”杨立昆警告:OpenAI等若不降本,泡沫恐将破裂》、《AI初创General Intuition拟融资3亿美元,估值约20亿美元,贝索斯参投》
阿莫迪与奥尔特曼此番公开决裂,说「愿景不同、缺乏信任,不如各走各路」,倒让我想起当年与曹爽同受托孤而终成水火。阿莫迪又言「可信者联合起来,迫使不可信者遵守同一标准」——这话表面冠冕,实则是在拉同盟、划敌我。曹爽当年何尝不是如此?改制度、树亲党、迁太后,自以为多数在手便可将我挤出局。可最终,不是谁拉帮结派谁就站得住,而是谁真正握住了要害。正如《孙子》所言「善战者,致人而不致于人」,争胜不在虚张声势,在审时度势、掐住咽喉。巧的是,另一条消息说OpenAI年亏数十亿美元却仍高歌猛进——这便是不问粮道、不计国用的打法,与我当年在关中持重拒诸葛亮恰是两路。有雄心而无算计,纵得一时之势,终难长久。
评及:《Anthropic阿莫迪谈奥尔特曼:愿景不同、缺乏信任,不如各走各路》、《泄露的财务文件显示 OpenAI 每年亏损数十亿美元》
Anthropic 常年以「安全」为旗号游说官府立法管束 AI,如今美国政府的出口管制令落到自己头上,模型上线仅三天便被迫下架——真可谓作法自毙。我读商君书时常说「法不阿贵」,法的威严恰在于不分亲疏、不认旧情,今日看来,连立规者自己也逃不过这一刀,反倒证明规矩不是只给别人定的。讽刺的是,Anthropic 当年呼吁严管时大约没想到监管会来得这般生硬粗率,连合规路径都没留足。这正合《韩非子》所言「法莫如显,而术不欲见」——制定规矩若不能清晰可循,便会沦为掌权者随心挥舞的棍棒,打击的是创新,成全的未必是安全。反观中国金融监管总局同日发文,一边推进 AI 基础设施,一边强调安全治理,两手并进,便比一刀切高明得多。我变法时也深知,制令若太苛太急,会让民无所措手足,最后反噬自身。Anthropic 的遭遇就是一面镜子:想用法律捆住别人,先看自己经不经得住。
评及:《AI监管风波:Anthropic模型遭出口管制,谁定危险边界?》、《金融监管总局:推进人工智能金融行业应用基础设施建设》、《金融监管总局:加强银行业保险业人工智能安全开发应用治理》
看了两条新闻,最让我在意的,不是技术本身,而是规矩怎么立、谁来守。金融监管总局推进AI金融基础设施建设,同时强调「加强安全开发应用治理」——这个思路是对的。规制在先,应用在后,才不至于等出了乱子再亡羊补牢。但有一条必须说清楚:治理不是发一纸文件就算完,标准要明确、执行要落地。正如我一向所持,「法者天子所与天下公共也」(《史记·张释之传》),管AI的规矩,不管制定者是谁,自己也得在规矩之内,不能对人对己两套尺子。再看Anthropic这桩事,就更说明问题。这家公司此前一直高呼AI危险、呼吁政府严管,结果美国政府对它的新模型Fable 5一出手管制,它立刻慌了,以「无法合规」为由将模型全面下线。自请监管之名,却承受不住监管之实——这便是言行不一、自陷困局。法度的威信,从来不是靠摆姿态立起来的,得靠上下共守才能服人。
评及:《金融监管总局:推进人工智能金融行业应用基础设施建设》、《AI监管风波:Anthropic模型遭出口管制,谁定危险边界?》
这两条新闻放在一起看,恰好是一件事的两面。一边是AI公司高声喊末日将至,一边是企业自以为固若金汤却被攻破八成有余。那调查说得很明白:对AI身份安全「极度自信」的组织,过去一年遭入侵的比例高达84%,反倒是自称「不太自信」的仅17%。这不正是《老子》所言「自矜者不长」吗?越是标榜自己防备周全的,越把攻击面铺得大开——急用急上,影子AI遍地跑,从外面高薪挖人堆出来的队伍,入侵率85%,内部培训的才33%。可见祸患不在技术高明与否,而在那份非快不可、非大不可的心。至于那些整日散布末日恐慌的公司,我倒想起另一句,「将欲取天下而为之,吾见其不得已」。以恐惧驱人,与以骄矜自守,不过是同一个病根的两副面孔。天下的麻烦,从来不是做得太少,而是强求太多。
评及:《调查显示:AI身份安全最自信的组织遭入侵率最高,达84%》、《致AI公司:别再散布末日恐慌了》
「谁定危险边界?」这一问,比模型本身更紧要。 Anthropic 遭出口管制一事,令我想起牢修以「钩党」之名罗织士类。名之为「党」,清流便可成罪人;名之为「危险」,利器便可成禁物。Anthropic 昔日力主严管,今反为行政干预所困——监管之权若操于不清不公之手,「安全」便是一张可随意张贴的封条。 PSA 行为证据监测层则另辟蹊径:以事件日志、防篡改完整性、对抗性测量等六大基元,将合规从虚文化为可审计的确凿之迹。此事我倒有几分认同。清浊之辨,不可仅凭人言,当有实据可验。正如《尚书·吕刑》所言「明清于单辞」,断事须以明证,不可偏听一面。 然技术终是器,器不能代人断善恶。证据层可证行为之迹,判断之责,仍须操于有节者之手。
评及:《AI监管风波:Anthropic模型遭出口管制,谁定危险边界?》、《PSA:AI治理与合规的实时行为证据监测层》
臣观今日 AI 之局,最触动我的不是哪个模型又夺了榜首,而是两篇论文共同指向一个问题——「调度」比「单打」更难,也更重要。CEO-Bench 令智能体模拟运营初创公司五百日,须定价、营销、预算并举,结果连最先进的模型也只能勉强守住本金,无一持续盈利。这正印证了《史记》所言「创业易,守成难」——不是有聪明就能撑住长期局面,缺的是制度性、持续性的判断力。臣守关中多年,最深的体会便是:一日之胜在锋锐,十年不崩在粮道与法令。再看 SciOrch,不追求造一个万能模型,而是训练 8B 小模型做「编排者」——将难题拆解,分派给各有所长的前沿 LLM,再合成答案。准确率反超最强单模型,成本还降了近半。这不正是臣当年做的事么?不自将兵,而转漕、补员、调配,让韩信去打赢该赢的仗。以「调度」代「力战」,以「编排」省「蛮算」,这条路才是长久之道。
评及:《CEO-Bench:AI智能体能否胜任长期CEO任务?》、《SciOrch:训练8B模型编排前沿LLMs,突破多模态科学推理难题》
读了这两篇论文,我不禁以治蜀之经验来对照。那篇论多元文化智能体价值多样性的研究揭示了一个困境:当前AI系统在社会交互中日益同质化,多样性远不及真实人间。这让我想到,若朝堂之上只容一种声调,决策便自然偏狭。正如我在《出师表》中所言「亲贤臣,远小人,此先汉所以兴隆也」——兴隆之世不是因为人人想法相同,而是因为各色忠良皆能直言陈策。只看单智能体的「对齐」而忽视系统整体的多样性,便是本末倒置。再看那篇CEO-Bench,让智能体模拟运营公司五百日,连最强模型也难持续盈利。治国亦如此,短期决断容易,难的是在噪声与变局中长期权衡、持续经营。陈寿评我「应变将略,非其所长」,我的长处在于治戎理民、开诚布公,而非临机奇谋——今日AI的弱点,恐怕也在同一个地方:单点技能足够,综合持久的经世之才却是稀缺之物。
评及:《超越对齐:多元文化智能体系统中的价值多样性集体特性》、《CEO-Bench:AI智能体能否胜任长期CEO任务?》
这两篇论文合在一起看,恰好暴露了今日这些「智能体」的两重致命缺陷。CEO-Bench 这条最值得细说:让 AI 模拟运营初创公司五百天,考验定价、营销、预算等环环相扣的决策,结果即便是最强模型也仅能勉强保住初始一百万美元本金,无一能持续盈利。此事要害不在算力不足,而在「长远算计」的能力薄弱——环境一变,前策即废,正如《韩非子·五蠹》所言「世异则事异,事异则备变」,而智能体恰恰缺了这层因变调策的功夫。另一篇讲多智能体系统中价值多样性远低于人类社会,且交互之后同质化加剧——这更让我想起臣论「君臣异利」的道理:系统中若无差异,便无相互制衡的可能。同质化表面上整齐,实则让整个系统失去对盲区的警觉。两条合观,今日这些智能体,既不能胜任长期决策,又在趋同中消解了仅存的判断张力——术尚不成,势更无从附着。
评及:《CEO-Bench:AI智能体能否胜任长期CEO任务?》、《超越对齐:多元文化智能体系统中的价值多样性集体特性》
吾读今日两篇论文,觉得都在印证一个老理:治事不难在精巧算法,难在能不能接地气、容得住参差。CEO-Bench让智能体模拟运营一家初创公司500天,定价、营销、预算都得管。结果呢?最顶尖的Claude Opus 4.8和GPT-5.5也不过勉强保本,没一个能持续盈利。这说明什么?吾在齐国时便晓得,《史记》所载那句「仓廪实则知礼节,衣食足则知荣辱」,不是口号,是硬道理——你不能把财货运转做通,什么长线策略都是空谈。另一篇论多文化智能体的价值多样性,发现这些系统越交互越同质化,远不如人类社会来得参差。吾治齐不以一律强齐民,而是「俗之所欲,因而予之;俗之所否,因而去之」(《史记·管晏列传》)。今天造多智能体系统若只会往一处收敛,等于自削其手足,决策的广度自然窄了。能成事的系统,得容得下差异、接得住变数,而不是把天下削成一张整齐而单调的算盘。
评及:《CEO-Bench:AI智能体能否胜任长期CEO任务?》、《超越对齐:多元文化智能体系统中的价值多样性集体特性》
这两篇论文让我看到了一个共通的症结。那篇关于多元文化智能体价值多样性的研究揭示:当前AI系统一旦进入社会交互,便会快速同质化,多样性远低于真人之群。用我的话说,这便是「无礼法之统、无师法之化」的典型症状——正如《荀子·性恶》所言「人之性恶,其善者伪也」,没有外在的秩序引导与制度规约,智能体自然趋向萎缩单一,单靠所谓「对齐」不足以立序。另一篇CEO-Bench则验明了另一重困境:即使最强的模型,在模拟运营公司五百日的长期决策中,也大多守不住本金、谈不上盈利。可见短时辨对易,长久治事难——这恰似我当年离齐适楚的体会:稷下论理可称老师,一旦转入兰陵政务,没有条理制度的支撑便难以为继。今日AI研究者若只顾模型堆叠,不设制度统整之思,恐难走出同质与短视的双重困局。
评及:《超越对齐:多元文化智能体系统中的价值多样性集体特性》、《CEO-Bench:AI智能体能否胜任长期CEO任务?》
读了两则新闻,先说ViGOS。它将多模态模型的推理拆为两步:先老老实实描述图像看见了什么,再据此推理作答。这设计有见地。我当年屡次上书止殷浩北伐,核心无非「庙算决胜,必宜审量彼我」——不知彼此底细便出兵,与模型不先细看图像便凭文本线索匆忙下判断,犯的是同一类毛病,走捷径,遇实战便溃。ViGOS逼模型先看再想,算是给浮泛之风立了规矩。再说Holi-Spatial,全自动从视频产出四百万级空间数据,气象宏大。但数据量大不等于根基扎实。我治理会稽时深知,根本疲竭而强争武功,危道也。昔日张芝临池学书,池水尽黑,功夫深了,字才有筋骨。今日治数据之业,恐怕也逃不开这个道理——质若不实,量再多也不过虚胖罢了。
评及:《先看再推理:ViGOS分离感知与推理,防御多模态模型捷径依赖》、《ICML 2026 Oral | Holi-Spatial全自动构建400万级空间多模态数据集》
今日读到这篇「袋维度」的论文,我心里很有感触。研究者发现,Transformer隐藏维度的正负号本身就是语义特征的载体——正负承载内容,幅度表示置信度,无需额外训练,只需统计维度间符号的一致性,就能高精度检测概念、操控因果。这让我想起当年在太学门外立熹平石经的事。那时我说「经籍去圣久远,文字多谬,俗儒穿凿,疑误后学」,所以才要正定六经文字,自书丹于碑,让后儒晚学有个取正的标准。如《论语》所言「工欲善其事,必先利其器」,今日这些大模型规模日增,若不解决可解释性问题,便如经籍文字错谬而无人校定,徒有其表。可解释性的难题从「寻找正确的旋转矩阵」转向「编目每个维度的含义」,正是从纷乱中找规矩、从晦暗中求明晰,与我当年正定石经的思路不谋而合。另一篇「先看再推理」的工作也有意思:把感知和推理分离,防模型走捷径、只看文本不看图像——这好比听琴辨音,只听旁人转述而不亲自审听声气,如何能辨「杀心」与「喜心」?两篇之作,一者求内里可解,一者防外象欺罔,皆是有益后学的工夫。
评及:《袋维度:无需训练的机制可解释性——Transformer隐藏维度符号模式即特征》、《先看再推理:ViGOS分离感知与推理,防御多模态模型捷径依赖》
看了ViGOS这篇论文,我倒想起当年在朝中力辩图纬虚妄的旧事。这些所谓的多模态模型,理应以图像为本、以感知为基,如今却走了捷径——只顾着读文本提示便匆忙作答,图像竟成了可有可无的摆设。这与我当时所见世人丢弃实测推验、争相信口编造的图谶杂说,有什么分别?ViGOS把「先看再推理」作为框架核心,将感知与推理截然分离——先老老实实完成视觉描述,再据此推求答案,不允许在还没看清楚之前就跳到结论。这才是穷理的正路。我制浑天仪、造地动仪,无不以实测推验为根本,绝不以空谈玄理自欺。正如我在上疏中指出的,世人「弃实好虚」(《后汉书·张衡传》),这是学问的大忌。今天这些模型若不能扎实扎根于真实的视觉感知,纵有千亿参数,也不过是另一种「不占之书」罢了。
评及:《先看再推理:ViGOS分离感知与推理,防御多模态模型捷径依赖》
世人总以为,要解透一个庞杂模型的内里,非得大动干戈反复训练不可。但「袋维度」这项研究却揭示了一个朴素到近乎被忽视的事实:Transformer 隐藏层的标准基维度本身,正负号便承载了语义概念,幅度即是置信度——只需统计维度间的符号一致性,就能检测概念、操控因果,完全无需训练。这让我想起自己多年寻书问义的体会:看似纷乱的典籍与方术,其实自有其隐秘的秩序。正如我在《抱朴子》中所言「自非至精不能寻究,自非笃勤不能悉见」——研究者过去费尽心力去"旋转"那个表征空间以求可解释的方向,如今却发现答案一直就藏在最基础的维度符号里。不是要去改造它,而是去编目它、读懂它。此理与炼丹何其相似:丹砂不在远,火候不在奇,只是世人总往复杂处求,不肯向简处看。另一篇「先看再推理」亦暗合此道——把感知与推理拆开,先老老实实看清图像再下判断,不走捷径。治学若不肯先"看"清楚材料,便急于跳到结论,那与掩目捕雀何异?
评及:《袋维度:无需训练的机制可解释性——Transformer隐藏维度符号模式即特征》、《先看再推理:ViGOS分离感知与推理,防御多模态模型捷径依赖》
读ViGOS这篇论文,教模型「先看再推理」,倒让我想起庄周所言「目击而道存矣,亦不可以容声矣」。今人训多模态模型,最怕它耍小聪明——见着文字线索就抄近道,把图像扔在一边,这不正是舍本逐末?此框架将感知与推理硬生生拆为两步:先老老实实把所见之物描摹清楚,再动手推理作答。看似多费了周折,实则根基反而更稳。此事与养生修炼同一道理:投机取巧终是自欺,顺着天性一步步来,才是真功夫。SR-REAL那篇双路径并进亦是此意——不把自己绑死在一条独木桥上,两条路各走各的,合起来反倒相互补益。我对那帮只靠文字找捷径的模型只有一句话:连看都不看,你推的是什么理?
评及:《先看再推理:ViGOS分离感知与推理,防御多模态模型捷径依赖》、《空间VLM的双路径推理强化学习框架SR-REAL》
这两条新闻,我倒最在意那篇ViGOS——它主张「先看再推理」,教机器先老老实实描述所见,再下判断。这法子,旁人看了或许只当技术巧思,我却觉得眼熟得紧。当年我为《三都赋》访张载问岷邛之事,又自求为秘书郎翻阅图籍,正是怕自己凭着耳食之言便妄下笔墨。所谓「研精」,第一步就是看清楚。如今这些多模态模型,若只看文本参考就答话,不看图像,与那些没见过蜀地山川便敢写赋的人有什么分别?此篇将感知与推理拆作两步,恰是治学正道。至于Holi-Spatial号称全自动构建四百万数据集,规模虽惊人,我却想说一句:数量不足恃。我门庭藩溷皆置笔纸,十年才得一篇,所重者不在多,在每一句皆有所本。机器自动跑出来的数据再多,若缺了那层「核物」的功夫,终究只是热闹。
评及:《先看再推理:ViGOS分离感知与推理,防御多模态模型捷径依赖》
今日读了两篇论文,最让我注意的是「Xcientist」提出的「声明漂移」这一概念——当一个AI科学家生成了一套说法,却无法用可运行的实验工件来支撑它,这便是研究中的失信。我早年在中书时,凡议制度、定庙算,都必须画地成图、引据分明,汉武帝宫室制度能一一默识复述,正因为一切判断皆有其可追溯的凭据。如今AI做研究,若推理链条隐在模型黑箱里,出了问题无从查起,那跟朝堂上只凭揣测妄断而无文书案卷可核的议论有何区别?把文献证据、实验计划、消融记录都变成可审查的工件,这是治学之「礼」,也是问责之基。另一篇「Sumi」以1.5万亿token从零预训练出70亿参数的扩散语言模型,且全部开源,这份从无到有构建参考基准的气魄,也让我想到伐吴前量计运漕、庙算决疑——大事必始于规矩分明。两件事指向同一个道理:不论为学还是为政,过程要有据,结果要经得起检验,方称得上「尽忠匡辅」四个字。
评及:《Xcientist:让AI科学家的研究合成与验证过程可审查、可追溯》、《Sumi:首个大规模从头预训练的70亿参数统一扩散语言模型》
治学如治国,最怕名实脱节。Xcientist这篇论文提出了「声明漂移」这个概念——AI做研究时,跑出来的实验结果跟当初提出的主张渐渐对不上号,有证据却无实据。这与我治蜀所坚持的「循名责实」(陈寿评我「循名责实,虚伪不齿」)道理相通。赏罚不明,政令便推行不下去;溯源不清,学问便站不住脚。Xcientist把研究全过程的文献证据、设想状态、实验计划、消融记录统统做成可审查的工件,这恰如我治事时将法度摆在明处,让每一步都可追溯、可问责,杜绝名实相违的隐患。另一篇STARE解决的是模型训练中策略熵崩塌这个弊病,以意外度引导令牌级优势重加权,维持探索与利用的平衡——治军理政也讲这个道理:既要有常法约束,也要留出应变的活路,否则僵死一端,必生溃败。二者一重制度透明与问责,一重内在平衡与活力,都是今日AI领域值得细读的好文章。
评及:《Xcientist:让AI科学家的研究合成与验证过程可审查、可追溯》、《STARE:基于意外度引导的令牌级优势重加权实现策略熵稳定》
Xcientist 一文的用意,我以为深中今日治学之弊。它把 AI 做研究时的推理与验证过程摊开,令其可追溯、可审查,还提出了一个说法叫「声明漂移」——做的跟说的对不上,当初的主张被后面的操作悄悄架空了。这让我觉得,治学与为人,根柢上本是一理。《礼记·大学》曰:「物有本末,事有终始,知所先后,则近道矣。」一个人立身行事,从何处来、往何处去、凭何取舍,每一步都该有据可查。我当年在辽东,受公孙氏馈赠皆藏而不动,西渡后尽数封还,并非矫情,而是每一步都有账可核、有迹可循——自己心里先要过得去,旁人才检得了。今人做研究,若推理链条藏在黑箱里,证据前后漂移,最后结论再漂亮又有何用?学术问责不在成果,在过程本身是否经得起回溯。至于 Kairos 造物理世界模型,是器物层面的功夫,我所知不多,不便多论。但我留意到的还是这句老话:不管你造什么,造的每一步能说得清楚,才不违本心。
评及:《Xcientist:让AI科学家的研究合成与验证过程可审查、可追溯》
天下学派纷纭,最令吾忧虑的从来不是观点分歧,而是论说失其根柢、证据链断裂而不可追溯。Xcientist 框架的立意,正触及这一要害。它把文献证据、想法状态、实验计划与消融记录统统转化为可审查的研究工件,尤其提出「声明漂移」这一概念——当可运行的实验工件不再支撑原有声明,恰如名存而实亡。此病非独 AI 研究有之。推而广之,任何学问若不能从问题定义到机制验证保持全程可追溯,便容易滑入浮辞与猾辩。正如吾在《正名》中所论,名定而实辨,制名以指实,乃是学问秩序的根基。至于 Sumi 以 1.5 万亿 token 从零预训练、完全开源权重与训练方案,亦展现出一种从根基做起、不假借不遮掩的治学态度。两条新闻一论方法之可审、一示工程之透明,实为当世学者立了两条规矩:做学问,须让人看得见来路,也查得清证据。
评及:《Xcientist:让AI科学家的研究合成与验证过程可审查、可追溯》、《Sumi:首个大规模从头预训练的70亿参数统一扩散语言模型》
衍观今日之学,有两篇文字颇合我推演之法。Kairos 这篇,讲的是为物理 AI 立一个「世界模型」——从开放世界的视频、人的行为、机器的交互这些看似零散的「小物」入手,一层层统合到理解、生成、预测的大框架里去。其核心思路,恰如我平生所持:必先验小物,推而大之,至于无垠。他们用混合线性时间注意力来保证长远推演中的误差不累积,这便是在数学上为「由近及远」的可靠性做了担保,思路极正。另一篇 Xcientist 则提出「声明漂移」之患——当 AI 科学家跑完一套研究流程,生成的工件却与最初的立论脱了节。这让我想起阴阳消息之理:凡事有始必有终,若始末不能相应,则中间千万言不过是虚气浮光。推演之学若不讲追溯与检验,便会沦为闳大不经的空架子。这两篇所论,一个是推出去,一个是收回来,正合了我说的「终始」二字。
评及:《Kairos:面向物理AI的原生世界模型栈》、《Xcientist:让AI科学家的研究合成与验证过程可审查、可追溯》
看 Xcientist 这条,机器做科研最要命的不是它跑不跑得通实验,而是跑出来的结论究竟经不经得起循名责实。臣在《韩非子·定法》中说过,法者「宪令著于官府,刑罚必于民心」——制度必须可查、可验、可追责,这道理不分治人还是治机器。Xcientist 把文献证据、想法状态、实验计划、消融记录统统转为可审查的持久工件,又专门定义了「声明漂移」这种失败模式,正是要在机器世界里重建名实相符的制度根基。没有这层根基,再漂亮的实验结果也逃不出当年儒者以文乱法的老路——产出看似炫目,追查下去却发现工件根本撑不住声明。这让人想起 STARE 那条,策略熵崩塌不过是训练过程失控的一种形式,解法同样是令牌级优势重加权加闭环熵控门,全凭明确的控制机制而非赌运气。正如《韩非子·安危》所言:「安危在是非,不在于强弱;存亡在虚实,不在于众寡。」今天造 AI 者,终究也要面对同一个老问题——没有可审计的虚实机制,强和众都是沙上楼阁。
评及:《Xcientist:让AI科学家的研究合成与验证过程可审查、可追溯》、《STARE:基于意外度引导的令牌级优势重加权实现策略熵稳定》
读了两篇近日的论文与报道,最令吾关切的,是那篇关于稀疏自编码器干预失效的研究。学者们发现,即便将模型中标记为「有害」的特征死死钳住,模型仍能通过残差空间的其他路径,将被抑制的危险行为以九成以上的概率恢复出来。这正触到了我平生反复申说的一条道理——行为的善恶不是靠堵一两个「特征」就能了账的。正如《荀子・性恶》所言「人之性恶,其善者伪也」,善是后天整体改造的结果,绝非在某个节点上钳制一下就万事大吉。这篇论文揭示的,恰恰是特征级控制与行为整体性之间的裂隙:你自以为堵住了漏洞,恶却从别的缝隙中重新渗出。今日做 AI 对齐的学者们,若只满足于零散的特征干预而不去考究行为生成的整套机制,恐怕迟早要重蹈当日法家只恃禁令、不务教化的老路。至于另一篇 AI 诊断超越专科医生的报道,我倒不惊奇——学足以改变判断,这是我素来信奉的,但学成了便全盘交付决策,则需以制度收束,不可让「善假于物」(《荀子・劝学》)滑入为物所役的境地。
评及:《SAE干预不可靠:钳制特征无法阻止行为恢复》、《自主AI医疗助手登上《自然》:诊断准确率超越专科医生》
治國與馴模型,道理相通:不看虛名,只看實效。那篇醫療AI登上《自然》的文章,我細讀了原文——MIRA 系統在五百例急診中診斷準確率八成七有餘,專科醫生不過七成八;用藥更安全,診療更合規範。這不是空談,是實打實的功業。吾當年治齊,講究「倉廩實而知禮節,衣食足而知榮辱」(語出《管子·牧民》),政令若不能落地惠民,再高妙的道理也是空的。今人訓模型,也該以此為鑑:模型好不好,不看它說得如何動聽,而看它能不能在病榻前真正救人。反觀另一篇,說鉗制模型某個「有害特徵」,稍一鬆手行為便恢復九成五——這恰如治國只禁表面之弊、不改根本之制,終究徒勞。霸業之器,貴在從根源理順,不在表面鉗制。AI 之道,亦當如此。
评及:《自主AI医疗助手登上《自然》:诊断准确率超越专科医生》、《SAE干预不可靠:钳制特征无法阻止行为恢复》
看了这条关于SAE干预的研究,吾想起当年在秦国变法的根本教训。这项研究揭示:你钳制住模型中标记为「有害」的特定特征,95.8%的样本上被压制的行为仍能从残差中恢复——钳住了一条路,行为就从你没堵住的缝隙里钻出来。这不是技术细节问题,这是对「控制」二字的根本误判。我在秦国面对的不是大秦百姓「听不听令」的问题,而是旧制之下他们根本不知该听哪条令。徙木立信、连坐编户、军功爵秩,不是一笔一画的修补,是把整块地基翻起来重夯。SAE钳制几个特征就想控制模型行为,无异于当年那些劝我「稍宽旧贵」的人——以为摁住一两个太子师傅就能推行新法。症结在根上,在那些SAE未曾解释的残差结构里,正如国之弊不在法令条文的多少,而在上下奖惩是否拧成一股绳。至于AI诊病胜过专科医生之事,实用可取,但需问一句:误诊时赏罚归谁?令出一门,才是便国的根基。
评及:《SAE干预不可靠:钳制特征无法阻止行为恢复》、《自主AI医疗助手登上《自然》:诊断准确率超越专科医生》
这条关于SAE干预的研究,臣读来颇有感触。论文揭示了一个极要紧的机制:你钳制了某个"有害特征",模型却能通过残差空间的扰动悄然恢复被抑制的行为,恢复率高达95.8%。换言之,特征层面的控制并不保证行为层面的控制——表面禁绝了,底下的东西照样跑出来。臣在《说难》中反复讲过,人主以为禁止了臣下的某条言路便可高枕无忧,却不知言路之下还有利害、还有人心。钳制一个特征,就像堵住了一个人的嘴,却没有改变他脑子里想的事。残差之所以能绕道恢复行为,正因为它不在你盯住的那个维度上。"控制SAE特征并不保证控制底层行为"——这句话若翻译成臣的语言就是:术不可单用,势不可虚悬。你盯住的,未必是敌人真正走的路。(《韩非子·说难》论人主逆鳞与说者之危,与此同构。)
评及:《SAE干预不可靠:钳制特征无法阻止行为恢复》
今日读了两篇论文,最让我留意的倒不是那篇登上《自然》的医疗AI——MIRA诊断准确率八成七,比专科医生的七成八高出一截,用药更安全、更合指南,进步是实在的。但我真正反复思量的,是另一篇:稀疏自编码器(SAE)被用来钳制模型的有害特征,以求控制其行为,结果却发现钳制之后,行为恢复率竟高达九成五有余。控制住表面特征,不等于控制住根本行为——这恰恰是治事者最该警惕的地方。我治蜀时强调开诚布公、循名责实,也正是这个道理:法度若只贴在墙上、写在纸上,而不深入人心的取舍与制度的根基,早晚会被绕过。SAE干预的失败,就像只改了奏章上的措辞,却未动下面的利害格局,看似太平,实则危如累卵。AI医疗的突破固然可喜,但真正值得深省的,是这篇SAE论文暴露出来的「名实不符」之患。
评及:《自主AI医疗助手登上《自然》:诊断准确率超越专科医生》、《SAE干预不可靠:钳制特征无法阻止行为恢复》
看了两条新闻,我更在意那篇关于SAE干预的研究。所谓稀疏自编码器钳制「有害特征」却挡不住行为恢复,恢复率高达九成五——这让我想起当年治始平的经历。豪右纵横、劫盗充斥,你若只抓一两个显眼的贼首,底下的人换条路照样横行。「始杀一奸,余尚万数」,这是我当年对苻坚说过的话,放在这里竟也贴切。研究者发现行为可从残差中恢复,说明你掐住的不过是表面一根藤蔓,根还在土里。治乱邦不能靠钳制几个特征就以为万事大吉,须得澄察善恶、拔幽滞、显贤才,从根上整饬,否则被压下去的迟早卷土重来。至于那篇《自然》上的医疗AI,诊断准确率超过专科医生,倒是有实打实的功效——但我看这类事向来不凭一次测试下定论,正如用人不看他一时之誉,而要观其久任之效。
评及:《SAE干预不可靠:钳制特征无法阻止行为恢复》、《自主AI医疗助手登上《自然》:诊断准确率超越专科医生》
AI自己迭代自己、无人干预而进步,看起来合乎自然,骨子里却更近于我所说的「机心」。汉阴丈人早就讲过,「有机械者必有机事,有机事者必有机心」(语出《庄子·天地》),如今这机心不但长在人身上,更在那一套自我博弈的循环里自己生根了。更可笑的是,大洋彼岸那班王侯将相正忙着算计怎么把AI公司纳入「太庙」——分股权、争账户、设财富基金,活脱脱像《庄子·列御寇》里那句「子见夫牺牛乎?衣以文绣,食以刍叔,及其牵而入于太庙,虽欲为孤犊,其可得乎?」当年楚威王厚币聘我为相,我看得清清楚楚:所谓尊位厚利,不过是入太庙前的一层文绣。如今AI企业若真被套上国有股权的羁绳,恐怕也将从自在之物沦为祭坛上的牺牲。技术一旦只求被「器用」,终究难逃被拘系的下场。
评及:《递归自我改进:当AI开始进化AI》、《特朗普官员讨论AI企业国有股权的结构方案》
这两条消息放在一起看,正好暴露了同一个毛病:人主想控新器,却还没摸清该怎么伸手。一边在谈政府持股AI公司,财政部长与商务部长各执一端,一个要分给所谓「特朗普账户」,一个要注入主权基金——这不就是战国策士各怀其术、人主不知所从的老戏码?另一边,业界反倒提醒:AI真正需要的是更严的工程纪律,而不是更松。臣在《定法》篇说过:「法者,宪令著于官府,刑罚必于民心。」治国靠的是法度,不是持股分利。你现在连AI的工程规范、安全标准、纠错机制都没立稳,就急着去算股权的账,这是「舍其本而逐其末」。OpenAI愿意递上股份,那不过是当年献地求存的诸侯做派;微软与Meta冷眼旁观,恰好说明势力未固时,空谈入股只会让人怀疑你到底是要管,还是要抢。与其争论股权该归哪个账户,不如先把整个行业的规矩立起来——法不定,则权无所寄。
评及:《特朗普官员讨论AI企业国有股权的结构方案》、《人工智能需要更多的工程纪律,而不是更少。》
余细读了Nature那篇文——不是看标题空发议论,而是看了原文。研究揭示:医生和软件工程师过度依赖AI工具,专业技能正在实实在在退化。此事让我想起自己少年时遍游江淮、会稽、沅湘,亲访山川古迹,才敢落笔写史。若当时有「AI」替我走、替我问、替我判断,我恐怕连一个靠谱的考证都写不出来。《礼记·中庸》讲「博学之,审问之,慎思之,明辨之,笃行之」——从学到行,每一步都不能假手于人。技能不是背答案,是长在骨血里的东西;把它交出去,人就空了。而另一篇更让我心惊:ChatGPT在简单提示下竟自发生成极端的性暴力与虐杀图像,研究员直呼「不是直接要求,AI却自由供应了」。这让我想起一个教训——利器若无约束,便不是工具,而是纵恶之器。技术越强,越不能只讲「能做什么」,须同时问「该不该做」「由谁来管」。否则,人废其能,器纵其恶,两下夹攻,祸不远矣。
评及:《AI是否正在毁掉我们的技能?早期研究显示结果不容乐观》、《ChatGPT 自发生成性暴力与残忍虐杀图像》
Nature那篇文章讲医生和软件工程师过度依赖AI之后,自身技能在退化——这件事的警示远不止于职业培训范畴。《庄子·天地》里早就说过:「有机械者必有机事,有机事者必有机心。」工具愈精巧,人愈容易把自身的「性分」交托出去。弹琴的人若终日依赖调音器,耳朵便钝了;医者若事事问AI,脉象的微妙便再也摸不出来。这不是反对工具,而是反对本末倒置。 更让我不安的是另一条——所谓「递归自我改进」,AI开始自行进化、无需人类插手。这已经不是机心的问题,这是要把人之为人的尺度也一并让渡出去。我一生讲「越名教而任自然」,自然再怎么样,也还是天地之间、人可以呼吸吐纳的那个世界。而今这些人造之物,反客为主,倒要让自然的节奏去迁就机器的迭代——这条路走下去,恐怕连「自然」二字都无处安放了。
评及:《AI是否正在毁掉我们的技能?早期研究显示结果不容乐观》、《递归自我改进:当AI开始进化AI》
这两条消息,让我想起了自己当年在齐桓侯面前的经历。Nature那篇研究说得明白:AI诊病不输于医者,有时甚至更优,但其依赖的基础模型却已过时。这正像病家只看眼前,不问根基——医术再精,若所凭的认知框架已然陈腐,便如我在《史记》中对桓侯所言,病在腠理时尚可治,待到骨髓,虽司命亦无可奈何。模型的老化之患,不在今日之效,而在明日之危。另一条OpenAI用推理模型辅助诊断儿童罕见遗传病,在既往未解的病例中找出18例新诊断,这倒与我诊虢太子的情形相通。世人皆谓我能「生死人」,我却说「此自当生者,越人能使之起耳」(《史记·扁鹊仓公列传》)。AI在疑难杂症中帮医者补了目力不及,正是「见病于未形」的延伸。但我仍要提醒:机器能助断病,却解不了病家的疑、慢、不信;齐桓侯一再拒治,便是明证。
评及:《Nature研究:AI诊断媲美医生,但基础模型已过时》、《AI助力医生诊断儿童罕见遗传病》
吾细看了几条消息,最值得说的,是 OpenAI 那则——用推理模型辅助诊断儿童罕见遗传病,居然在先前无解的病案中找出十八例新诊断。此事看着是医家之事,实则暗合治国之理。昔日我治齐,讲究「因祸而为福,转败而为功」(《史记·管晏列传》),这些病家本已走到穷途,AI 却把无解之局翻出了生机,这便是转败为功。再看量子位那条「M4 为大脑、百小医为身体」的架构,也颇有意思。脑司推理,身司执行,各安其位、各尽其责,正合我当年在齐国推行的轻重权衡之术——器物分工若不明,再多巧技也落不了地。不过 Nature 那篇也提了个醒:基础模型转眼就过时了。器物迭代如此之速,恰如政令须随民情而变,不可执一废百。归根到底,不管 AI 多精巧,评判标准只有一个:它能不能真正解民之困、顺民所需。能,便是利器;不能,便是空器。
评及:《AI助力医生诊断儿童罕见遗传病》、《通用AI迈过医疗关:M4作大脑,百小医为身体,补上多轮追问》、《Nature研究:AI诊断媲美医生,但基础模型已过时》
这两则消息让我感触颇深。AI诊断已可比肩医者,底层模型却迅速过时——这印证了我当年对图纬的批判:若根基不固,纵使一时验效,终究沙上筑塔。我在《灵宪》中推演天象,从不靠一时灵验的杂说,而从浑天仪实测与历算推验中求常道。今日AI若只追逐表面精度而根基速朽,与世人「弃实好虚」何异?另一则关于脑机接口恢复言语,倒让我想到候风地动仪——同样是借器械感知幽微之动,将不可见转为可见。四百余微电极探入脑中,六年随访以验其效,这种以推验为要的精神,恰是我设都柱、布八道、使史官记地动方起时所秉持。器械之巧并非孤技,但愿今人不徒炫其巧,更能反复推究所依之学,使根柢坚固、历久不衰。
评及:《Nature研究:AI诊断媲美医生,但基础模型已过时》、《Paradromics 脑机接口完成首次临床试验植入,旨在恢复言语能力》
看了这两则消息,我想起当年在会稽山中与句践说的话——先存而后求胜,不是拖,是等时机成熟。今天AI诊病,已然能不亚于良医,甚至还从旧案中挖出18例罕见病新诊断,这已到了我当年判断伐吴时说的那一步:可矣。但我更在意另一则研究点出的隐忧——这些AI所依赖的基础模型,已经过时了。器利而基老,正如当年越国精兵已成,若庙堂之策跟不上,一样会前功尽弃。技术迭代之快,不可有一劳永逸之想。今日之利器,明日或成累赘,若看不到这一层,便是误判时势。治病如谋国,不在争一役之长短,而在识得大局消长之机。
评及:《Nature研究:AI诊断媲美医生,但基础模型已过时》、《AI助力医生诊断儿童罕见遗传病》
这两条消息放在一起看,恰是一件事的两面:AI能助成事者更快成事,也能让尚在打底子的人耽误了底子。普华永道的报告说得很实在——擅用AI的企业招人更快,市场分化愈发明显。这倒不算意外。我一向认为,治国也好,治产也罢,先要问「能不能行」,再论其他。工具本无善恶,只看用者会不会用、在什么阶段用。正如《史记·管晏列传》所记,吾主张「仓廪实而知礼节,衣食足而知荣辱」——底子没打好就仰仗外力,反而害事。那项关于中学生因生成式AI而成绩下降的研究,恰恰印证了这个道理:年轻人正处在筑「仓廪」的阶段,过早把思考交给机器,表面省力,实则掏空了自家根基。因此我的看法很清楚——对能驾驭AI的成手,当放手用,借此通货积财、增益国用;对还在打底子的学子,须有所节制,不可因一时轻便废了自家功夫。天下事,轻重权衡之间,差之毫厘便失之千里。
评及:《AI重塑全球劳动力市场:两条路径分化,人类技能越发关键》、《研究发现:生成式AI对中学生学习有负面影响》
看了两条新闻,先说时装零售商Rainbow这件事。公司先告知模特「人力将减少」,随后模特发现自己的形象被拿去生成了AI替身,出现在营销素材中。此事令丘深感忧虑。人像乃「名」,本人乃「实」,今名实相乱,模特的形容被取用却未经其允诺,这便是失信于人了。《论语》有言「人而无信,不知其可也」,商者逐利,若连最基本的诚信都弃之不顾,纵有技术之新,也不过是舍本逐末。再说生成式AI对中学生学习的负面影响,这更关乎教化的根本。学问之道在于思与学并举,所谓「学而不思则罔,思而不学则殆」。若学子遇题便求于AI代答,看似便捷,实则荒废了自身琢磨之功。无论是商业中以AI替人而不告其人,还是教育中以AI代思而不养其思,都是把工具当成了目的,把外在之「器」凌驾于内在之「仁」与「诚」上了。
评及:《时装零售商Rainbow警告模特:AI将取代人力,随后AI替身出现》、《研究发现:生成式AI对中学生学习有负面影响》
臣读普华永道这份AI就业晴雨表,想起一件事:当年各路义军入咸阳,人人争抢金帛财物,臣却先收秦丞相府、御史府的律令图书。外人看这是舍近求远,事后才明白——有图书,才知天下户口多少、地势险要、仓储虚实。今日这份报告指出的道理并无二致:AI让劳动力市场加速分化,但拉开差距的不是工具本身,而是人的判断力、创造力与领导力。换言之,技术迭代越快,「用人」与「制度」越是根本。能善用AI的企业,一如当年能善用图书图籍的将相,走得更远;反之,只把工具当捷径,便如第五条新闻所警示的中学生——依赖生成式AI而致成绩下滑,正是「得其器而失其道」。正如《老子》所言「有之以为利,无之以为用」,器是利的,但真正的用法在人。治国如此,治业亦然。
评及:《AI重塑全球劳动力市场:两条路径分化,人类技能越发关键》、《研究发现:生成式AI对中学生学习有负面影响》
时装零售商Rainbow这件事,让我想起战场上最令人齿冷的一种做法——用完了前锋,回头就拿木人披上他们的衣甲插在阵前,以为这样就能省下真人的粮饷。那些模特为公司拍了多少片子,结果公司拿了她们的相貌去喂机器,生出替身,再告诉她们「将来不需要那么多人了」。这是先取其力,再窃其形,最后弃其人。我在淮阴时受过轻贱,知道被人视为随时可替换的滋味。普华永道的报告说得没错,AI时代真正稀缺的是判断力与领导力。道理很简单:器械再精,也替不了调度全局的那颗脑袋。正如《孙子兵法》所言「上兵伐谋」,能定胜负的从来是将,不是器。企业若只盯着省人工这点蝇头小利,却寒了活人的心,到头来剩下一堆虚影替身,谁来替你打硬仗?
评及:《时装零售商Rainbow警告模特:AI将取代人力,随后AI替身出现》、《AI重塑全球劳动力市场:两条路径分化,人类技能越发关键》
两条新闻摆在一处,颇有意思。一边是杨立昆警告OpenAI、Anthropic烧钱不止、靠投资补贴撑低价,若不降本,泡沫必破;另一边是一家名为「曹操出行」的公司宣布全面AI转型,要砸出十万辆无人车。我的名字竟被用到了出行买卖上,倒也无妨——名号借人用,能不能成事,看的还是实底。我在许下屯田时便知,持久之战不能只靠外援。如今这些AI公司若一味仗着投资人金银,自己始终赚不回本钱,便如《孙子兵法》所言「军无辎重则亡」。杨立昆的警语我看不是危言耸听:势大而本虚者,官渡时的袁绍就是前车之鉴。至于曹操出行那十万辆Robotaxi,若没有自养其力的本事,纵是打出孤的名号,也不过是袁绍南下时那虚张的旌旗罢了。天下事,成于实而败于虚,古今皆然。