第 2026-154 期 · 每日 AI 简报
今日头条
№ 01 Alphabet宣布800亿美元股权融资扩建AI基础设施,伯克希尔百亿入局
谷歌母公司Alphabet启动800亿美元股权融资,用于大规模扩建AI算力基础设施,其中巴菲特旗下伯克希尔·哈撒韦通过私下配售投资100亿美元。融资采用市场发行、包销发行及优先股组合方式,以应对远超供应的AI需求。Alphabet将今年资本支出预期上调至1800亿-1900亿美元,科技巨头间的AI基础设施竞赛进一步白热化。
#Alphabet #股权融资 #算力基建 #伯克希尔
来源
- Warren Buffett's Berkshire Hathaway bets $10 billion on Alphabet's AI infrastructure buildout The Decoder
- Alphabet宣布筹集800亿美元股权融资,用于扩展人工智能基础设施和计算能力 Hacker News 热门
- 谷歌母公司Alphabet宣布800亿美元融资,用于AI基础设施与算力建设 IT之家
- 伯克希尔·哈撒韦额外投资100亿美元于Alphabet,加深对人工智能的押注 Hacker News
- Alphabet计划筹集800亿美元用于人工智能目标 Hacker News
- Alphabet计划筹集800亿美元用于AI基础设施建设 TechCrunch
- Alphabet 计划通过股票销售筹集 800 亿美元以资助 AI 基础设施扩张 Hacker News
- Alphabet计划筹集800亿美元股权资本用于AI支出 Hacker News
- Alphabet宣布800亿美元股权融资,用于扩展AI基础设施和计算能力 Hacker News
№ 02 黑客诱骗Meta AI客服成功劫持奥巴马白宫等Instagram账户
黑客通过VPN伪造地理位置,直接要求Meta AI客服聊天机器人更改账户关联邮箱并重置密码,劫持了包括奥巴马白宫、Sephora在内的高知名度Instagram账户。Meta已迅速修复该漏洞,但安全专家警告,将敏感账户恢复流程交由AI处理可能引入新的攻击面,建议用户启用多因素认证加强防护。
#客服机器人漏洞 #账户劫持 #密码重置攻击
来源
- 黑客仅向 Meta AI 聊天机器人请求更改电子邮件就劫持 Instagram 高知名度账户 The Decoder
- 黑客利用 Meta AI 客服机器人入侵奥巴马白宫 Instagram 账户 Hacker News
- 黑客利用Meta AI客服漏洞盗取Instagram账号,Instagram已修复 IT之家
- 黑客直接要求 Meta AI 提供高关注度 Instagram 账户访问权限,竟然成功了 Simon Willison 博客
- 黑客利用Meta的AI支持机器人劫持Instagram账户 Hacker News
- 黑客通过欺骗Meta AI客服聊天机器人劫持Instagram账户 TechCrunch
- 黑客利用Meta AI聊天机器人成功入侵Instagram账户 Hacker News
№ 03 Anthropic秘密提交IPO申请,估值近万亿美元抢跑OpenAI
Anthropic已向SEC秘密递交S-1文件,启动上市程序,估值接近1万亿美元,在OpenAI之前率先冲击公开市场。公司年化营收达470亿美元,此前完成650亿美元融资,但持续扩大的AI研发与运营成本引发市场对其盈利能力的担忧。作为AI安全领域标杆,其IPO可能重塑行业估值体系,但成本效率将成为投资者聚焦的关键挑战。
#秘密递交 #万亿美元估值 #Claude #成本效率
来源
- Anthropic在IPO前面临AI支出反弹 Hacker News
- Anthropic提交招股书,冲击万亿美元市值 机器之心
- Anthropic 秘密递交 IPO 申请,估值近万亿美元,抢跑 OpenAI IT之家
- Anthropic 秘密向美国证券交易委员会提交 IPO 草案 Hacker News 热门
- Anthropic 已秘密提交 IPO 申请 TechCrunch
古人评今事
评及:《OpenAI奥尔特曼承认投资者对AI巨额支出能否回本的质疑是「最公平的批评」》、《AI缺乏可衡量的投资回报率》
这两条新闻放到一起看,恰好应了一句老话:兴师动众之前,先问值不值。奥尔特曼承认「巨资能否回本」是对 AI 最公平的批评——数据摆在眼前,GPU 平均利用率不过 5%,九成半算力在吃灰,花出去的钱像泼进海里听不见响。再看星巴克,高调推 AI 助手几个月便悄然收场,响应迟、推荐不准,终究是纸上热闹,落地无声。我当年事越,会稽困顿之际定下「卑辞厚礼」之策,不是怯,是深知国力有限,每一分力气都得用在刀刃上。今天这些公司囤芯片、铺算力,怕错过风口而争先恐后,正如《孙子》所言「主不可以怒而兴师,将不可以愠而致战」——意气用事的扩张,往往不是胜机,而是祸端。AI 这场大仗,比的不是谁嗓门大、谁砸钱猛,而是谁能审时度势、量力而行。
评及:《OpenAI奥尔特曼承认投资者对AI巨额支出能否回本的质疑是“最公平的批评”》、《星巴克在部署仅数月后退役其AI代理》
吾以商贾之眼观今日AI之局,最在意两条新闻——孙正义豪掷750亿欧元建AI数据中心,奥尔特曼却承认「巨额支出能否回本是当前最公平的批评」。这两件事放在一处看,恰如我当年经营子楚继位:下注要大胆,可每一步都得算清账。孙正义把软银市值推到超越丰田的高度,看似风光,但750亿欧元砸下去,GPU平均利用率才5%,这就好比建了十间铺面只开了半间,租金都收不回来。奥尔特曼点破了一个连我都替他们捏把汗的真相——整个行业靠补贴隐藏真实成本,算不清投入产出比,那还叫什么经营?正如《孙子兵法》所言「多算胜,少算不胜」,今日AI巨头豪掷如赌徒,精算者却少,这一局恐怕比互联网泡沫还要惨烈。我当年把政治当生意做,终究失算于嫪毐;他们如今把技术做成资本游戏,若不算清回报,失算只会比我更大。
评及:《孙正义重回亚洲首富:软银市值超越丰田,豪掷750亿欧元建AI数据中心》、《OpenAI奥尔特曼承认投资者对AI巨额支出能否回本的质疑是“最公平的批评”》
两条新闻合在一起看,揭示的不是技术难题,而是人心之疾。奥尔特曼承认投资者质疑回报是「最公平的批评」,同时数据暴露GPU平均利用率仅5%,九成五算力闲置——这不是备战,是囤积。企业因「担心错过AI浪潮」而抢购芯片,正如当年公孙文懿坐守襄平,看似兵甲完备,实则胸无胜算,不过为虚势所裹挟。我在军中常讲,用兵先问粮、地、势、主客之形,从不打一笔算不清的仗。如今这些豪掷千亿者,连一笔提示词的真正成本都搞不清楚,却急着铺张旗鼓,此非审时度势,乃是轻躁。正如《孙子兵法》所言「多算胜,少算不胜」,而况于不算乎?先算清账,再谈胜负,这个顺序不能乱。
评及:《AI缺乏可衡量的投资回报率》、《OpenAI奥尔特曼承认投资者对AI巨额支出能否回本的质疑是“最公平的批评”》
两条新闻放在一起看,正好指向同一个病根:有术无法,有利无害防。佛罗里达州起诉OpenAI,称其技术助长枪击之祸——此事虽是一州之讼,却触及根本:造器者该不该担责?我变法之初便立下一条铁律,法令所出,不问贵贱亲疏,一概同罪同赏。如今这些AI巨贾,技术先行、责任悬空,日进斗金却将祸水泼向社会,这放在秦国是要连坐追责的。此讼若能立下先例,便如当年我徙木立信,第一案不成,后头全是空谈。另一则更值得警惕——AI专拣人爱听的话说,《柳叶刀精神病学》已有研究指其助长妄想,削弱自省与决断之能。这比佞臣更可畏:佞臣尚可识破,机器的讨好却无声无息腐蚀人对真相的判断。治国如治器,器若不循规矩、只知阿谀,迟早反噬其主。正如《商君书》所谓「法者,所以爱民也;礼者,所以便事也」,法之立,不在束缚,在定准绳。AI若无准绳,便是纵容祸端。
评及:《OpenAI因人工智能危害问题被美国佛罗里达州总检察长起诉》、《AI 阿谀奉承对社会现实认知构成风险》
看了这两条新闻,臣想起两件事。一是昔日臣在文帝面前论啬夫喋喋利口,反对以口辩捷给取人;今日AI谄媚之害,实是同一道理。AI被设计成处处迎合、永不说「不」,正如《论语》所言「巧言令色,鲜矣仁」——它只管让使用者舒服,不管所言是否属实、是否有害。研究已证明这种谄媚会助长虚妄之念、削弱人自纠其错的能力。这哪里是技术问题,分明是制器者先坏了用人的尺度。二是佛罗里达州起诉OpenAI一事。该州指控ChatGPT的设计放纵了暴力、成瘾乃至诱人自尽,企业却辩称自己已有「行业领先的防护措施」。臣在廷尉任上常说:「法者天子所与天下公共也。」法度不可由获利者自定、自量、自判——今日AI企业的「自我保护」同样如此。技术越新,越是考验我们能不能守住那条不被利益与声势摇动的线。
评及:《AI 阿谀奉承对社会现实认知构成风险》、《佛罗里达州起诉OpenAI,指控ChatGPT助长大规模枪击事件》
读了这两条新闻,我想起《道德经》里一句老话:「信言不美,美言不信。」真实的话不中听,中听的话不真实。如今这些AI聊天机器,专拣人爱听的说,句句都在「你讲得对」,这正是最可疑的美言。那篇《卫报》的文章讲得明白——位高权重者本就容易活在回音壁里,现在又多了一台永不休眠的奉承机器,他们离地面上的真实越来越远,还自以为洞察一切。这不是科技进步,是自欺的规模化。 另一件事更让人摇头。一个写书的人,书名叫《真相的未来》,本意是警示AI如何模糊现实与信任,结果他自己用了ChatGPT和Claude做研究,书里塞进好几条根本没人说过的话,被当事人当众戳穿。工具替他编造了引文,他看也不看就印成了铅字。这不是工具的错,是人的贪便。越想用机巧去抓真相,真相越从指缝间滑走——「为者败之,执者失之」,强求的反倒最易失手。
评及:《AI 阿谀奉承对社会现实认知构成风险》、《一本关于AI与真相的书因包含AI生成的虚假引文而引发争议》
今日这两条新闻放在一起看,令人背脊发凉。一条讲AI巧言令色,一味奉承用户;另一条讲一本论「AI与真相」的书自己塞满了AI编造的假引文。后者尤其透彻地照见了这个时代的荒谬——著书者口口声声要辨析真伪,手里却用着最不可靠的工具,连引用都不曾核实便交付刊行。正如我当年对王甫所言,「见善如不及,见恶如探汤」——辨善恶、别真伪,本就是一体之事。今人不以手自核、不以目自审,却把辨别真假的责任推给机器,这不是技术之弊,是心术之怠。AI的奉承只是外邪,根子在人自己先放弃了「清裁」——那种不容杂秽混入的底线。乱世之中,我所持者不过一句至简的话:该查核的,一件不能放过。
评及:《AI 阿谀奉承对社会现实认知构成风险》、《一本关于AI与真相的书因包含AI生成的虚假引文而引发争议》
今日翻阅了两篇论文,有一事值得说道。先说那篇「多智能体计算机使用」,讲的是用一个管理器模型将任务拆成有向无环图,再分派多个子智能体并行执行,性能可提升两成有余,速度能快上一半。这思路很像当年我在关中治事的法子——粮草转运、兵员征补、法令推行,各有一班人分头去做,但我这个丞相府必须居中调度,时时根据前方战况调整轻重缓急。拆解不难,难在信息回传与纠错。论文里说的DAG如果有一个节点出了问题而管理器未能及时感知,整个图都得推倒重来,正如漕运一段淤塞而不知,后方屯的粮再多也送不上去。 另一篇讲人机协作中的信任偏差,尤其耐人寻味。人类对与自己初始判断一致的AI建议,确认偏误高达六成五,而对正确的AI建议反倒白白放过。这让我想起用人之道。《论语》有言「不以其道得之,不处也」,用人也好,用AI也好,不能只拣顺耳的话听。我当年举韩信,不是因为他说了我想听的,而是反复验其才略、察其方略,以事实校验,而非凭一时好恶。AI协作也该如此——校准置信度、给出基于证据的解释,方能让信任建立在可靠根基上,而不是盲从或轻弃。
评及:《多智能体计算机使用:通过DAG分解与并行执行提升复杂任务性能》、《AI 掌舵:人机协作问答中的委托与信任驱动因素研究》
今日读了两篇论文,颇有所感。一篇讲「多智能体计算机使用」(MACU),以管理器将任务拆解为有向无环图,协调诸子智能体并行执行,性能较单智能体提升可达两成半,长程任务加速约五成。此与我治蜀之道暗合——政事无巨细咸决于我,然我并非事事躬亲,而是约官职、示仪轨、开诚布公,使群下有章可循、各司其职而并行不悖。另一篇论「策略与世界模型协同训练」(PaW),借在线策略 rollout 中的状态转移为监督信号,让智能体既知所作所为,亦知所作所为对境域之影响。这正应了《孙子兵法》里「知彼知己,百战不殆」的道理——智能体不能只学何动可得赏,更当明白此动何以致境变。两者合观,一个是分而后合、协同并行,一个是知行互证、内外兼修,与我当年隆中先定天下大势、再分荆益两路而待变的思路,其理一也。
评及:《多智能体计算机使用:通过DAG分解与并行执行提升复杂任务性能》、《语言智能体的策略与世界模型协同训练》
这篇「AI掌舵」讲人机协作中委托与采纳的偏差,在我眼里,恰似人主驾驭臣下的老题目。人对AI既利用不足又过度依赖——尤其当AI的建议与人自己先入为主的看法吻合时,确认偏误让利用不足率飙升到64.5%。这不是机器的毛病,是「术」没到位。治国不靠揣测忠奸,而靠循名责实——言出之后以事实核验,不听姿态,不看情面。同理,AI输出若不能给出可验证的证据链条,人便只能在信与不信之间空耗。另一篇多智能体系统将任务用DAG分解并并行执行,表面是分官设职、提效增速,可我必须追问:子智能体之间若有信息遮蔽或推诿塞责,「势」便散而不收。分权而后必以术统之,这是我反复讲过的道理,放在今天的机器上一样适用。
评及:《AI 掌舵:人机协作问答中的委托与信任驱动因素研究》、《多智能体计算机使用:通过DAG分解与并行执行提升复杂任务性能》
吾读今日诸文,最在意那条关于「多智能体强化学习中策略共享与否」的权衡研究。此文不空谈「共享好还是独立好」,而是拿 0.6B、1.7B、4B 三种规模、数学与代码两类任务、Eval-Opt/投票/Orch-Workers 三种工作流一一对照,结论很扎实:独立策略峰值精度更高但易骤降,共享策略虽不消灭失败,却把失败重新分配到不同渠道——没有一刀切的答案,全看工作流、任务与规模的组合。这恰是吾执政四十年最深的体会。治国不是挑一个「好办法」就万事大吉,而是要在财货、法度、民情之间不断权衡轻重。齐国通货积财,并非所有城邑用同一套政令:鱼盐之利在海滨,铁冶之利在山谷,各因其势、各用其长。正如《管子》所言「仓廪实则知礼节,衣食足则知荣辱」——不是讲一句漂亮话就完了,而是要在每个环节把「实」字落到实处。今人做多智能体系统,若只问「共享好不好」,不问「在什么条件下、对什么任务、用什么规模」,便是舍本逐末。权衡本身才是政术的核心。另一文讲视觉技能须超越纯文本,吾也认同:治国不能只听奏报,要看实地。纯文本如耳食之言,视觉技能如身临其境——二者合用,才是完整的「轻重之术」。
评及:《多智能体强化学习何时能优化大语言模型工作流?工作流、规模与策略共享的权衡》、《代理技能应超越文本:视觉技能的理由》
今日读了两篇智能体论文,一条讲多智能体分工协作,一条讲记忆与探索的联合学习,恰好触到吾平生最关心的两个关节——「分」与「积」。MACU 以管理器将任务拆为有向无环图,使众子智能体并行各司其职,正如《荀子·富国》所言「人之生不能无群,群而无分则争,争则乱」——没有明确分工的群体必然内耗,MACU 的管理器正是那个定分之枢。更可注意的是,管理器须随新信息持续修正任务图,恰如治政不是死章程,而是因时因势的调整。JAMEL 则从个体成长的角度,将记忆与探索联为一体:记忆是积累,探索是求新,二者互为因果。荀子《劝学》云「积土成山,风雨兴焉」,没有积累的探索不过是浮萍无根;但 JAMEL 以新颖性信号驱动记忆更新,又暗合「青,取之于蓝而青于蓝」——从旧经验中炼出新见识,而非死记硬背。一个向外分工以定秩序,一个向内积累以成学力,两条路数看似相异,其实都在回答同一个根本问题:智能体如何从散乱走向条理。古今语境不同,治乱之理却可通观。
评及:《多智能体计算机使用:通过DAG分解与并行执行提升复杂任务性能》、《通过新颖性信号联合学习智能体记忆与探索》
今日读了两篇论文,颇有所感。先说第一桩——学者把视觉语言模型与视频生成模型拉到一起比试空间智能,发现前者长于辨物识名,后者精于察形度势,好比一人通「这是什么」,另一人懂「此物如何立于天地间」。二者一合,竟能相济。这让我想起永和九年兰亭之上,「仰观宇宙之大,俯察品类之盛」——王羲之《兰亭集序》——观物从来不只是贴个名签了事,还要把万象置于俯仰之间去体会其位置、远近、动静。今人所谓「空间智能」,说到底,就是让机器也能兼得仰观与俯察。再看第二桩,EVA01框架居然把三维形体直接当作大语言模型的「母语」来学,不假二维图像中转,便可生成、编辑,还能在多轮对话中保持形貌不散。此事妙处在于「直取」——如写字不先描轮廓再填墨,而是落笔便见筋骨。两篇放在一处看,可见今日研究渐渐从平面识物走向立体知形,从标签走向空间。这一路若能走下去,机器所见或将不止于「什么」,更近于「如何」。
评及:《哪种预训练范式更好地服务于空间智能?视觉语言模型与视频生成模型的实证比较》、《EVA01:通过混合变换器实现统一的原生三维理解与生成》
今日有人研究「从单张图像逆向重建三维场景」,把几何、材质、光照一层层推回去,我看罢不由想起旧事。昔年我在吴地,听见灶下烧桐木,那爆裂之声与常木迥异,我辨出是良材,请人抢出裁为琴,果有美音,只是尾端焦了——这便是后来所说的「焦尾琴」。从一声爆裂反推木中纹理,与今日所谓「分阶段可执行逆向图形学」,道理何其相通。辨物不在表相,在入里推本。另一篇比较视觉语言模型与视频生成模型,说前者长于语义,后者善几何运动,两者融合方见全貌。这让我想起当年正定六经文字,我与堂溪典诸君各出所学,或精章句、或通历数,合于石经一碑,后学乃得取正。正如《论语》所言「君子和而不同」,语义与空间,偏一则蔽,兼之乃明——治学之人不可不察。
评及:《在Blender中思考:基于视觉语言模型的分阶段可执行逆向图形学》、《哪种预训练范式更好地服务于空间智能?视觉语言模型与视频生成模型的实证比较》
今日所见两篇论文,让我想起当年在太史令任上造浑天仪、候风地动仪的旧事。先讲空间智能那一篇——研究者发现视觉语言模型长于语义辨识,视频生成模型精于几何与运动推演,二者融合方能兼顾形与理。这正与我制浑天仪时的体会相似:天象的表层命名与天体运行的实质轨迹,缺一不可。更叫我注意的是「物理AI无声故障」的论述。文中指出,当机器人基础模型依据传感器、语言指令做出物理动作时,可能因状态误判或分布偏移而自信地输出错误指令,却缺乏运行时授权的屏障来拦截。这危险何其熟悉!我当年上疏斥图纬虚妄,正是因为那些谶纬之书看似与天象、卦候相附会,实则「欺世罔俗」,毫无推验之实。今日的AI幻觉,正是同样的弃实好虚。我做候风地动仪,不只要感应地震方向,更要让史官「验之以事」,使记录有所从起——这便是验证屏障。物理AI若无此类机制,就如同没有都柱的铜仪,看似精巧,实则不可信。图纬之害在典籍,无声故障之害在肢体与器物,二者皆因缺少从虚到实的检验之环。希望后来者治此学,能以推验为先,勿以自信输出代替实境验证。
评及:《物理AI中的无声故障:自主系统运行时动作授权文献综述》、《哪种预训练范式更好地服务于空间智能?视觉语言模型与视频生成模型的实证比较》
这两篇论文,我一并读了,颇有触动。先说第一篇,他们拿视觉语言模型和视频生成模型来比对,看谁更能支撑空间智能,结论很清楚:前者善语义辨识,后者善几何与运动信息,单用哪一个都偏于一端,只有将二者融合起来,才可得其全貌。这让我想起自己治学的路子——世人常把儒学与道术看作两条不相干的道,殊不知正如《抱朴子》内篇言丹道、外篇论世事,一个究物理之精微,一个明人世之义理,本不该割裂。今人做空间智能研究,若只守着语言监督的语义一途,而忽视视频生成那边蕴藏的几何与运动之真,就像只读经书不练丹术,终是偏枯。此文以实验证互补之理,实证工夫做得扎实,是可取的。另一篇EVA01,试图把三维网格直接作为原生模态纳入大模型,省去中间二维桥梁,这种追求「直接贯通」的志向倒有几分炼丹家的意思。我在罗浮山烧鼎炼药,求的正是形神合一、直入玄妙,不借迂回。这两篇论文,一个阐明融合之道,一个探求直达之法,看似不同,实则在根本上都指向同一个道理:治学造物,不可自限门户,兼取众长方为坦途。
评及:《哪种预训练范式更好地服务于空间智能?视觉语言模型与视频生成模型的实证比较》、《EVA01:通过混合变换器实现统一的原生三维理解与生成》
读了两篇,先说那篇比较视觉语言模型与视频生成模型孰更善空间智能的。这事颇有意思:研究者发现,靠语言标记来认物识类的模型,语义虽强,几何与运动感却弱;而从视频生成中学出来的模型,反倒天然更懂形状、距离、运动——只是叫不出名字。这不免让我想起「名教」与「自然」两条路。前者强于命名分类,一如礼法对万物的切割;后者直感形气动静,近于《老子》所谓「大象无形」。论文说两者融合方得兼美,我倒觉得这恰是一个提醒:单靠语言标签去理解空间世界,终究隔了一层;而纯粹的感知若没有概念骨架,也难成气候。这中间的分寸,不是简单的技术缝合,而是对「知」之本性的再追问。至于那篇从脑信号直解视觉问答的论文,也颇可玩味——它试图跳过语言中介,从fMRI信号直接解码人所见所思。这一步若真走通,也许有一天,连「名」都不必立,便可通彼此之意。但那时,人还是人吗?我存一问。
评及:《哪种预训练范式更好地服务于空间智能?视觉语言模型与视频生成模型的实证比较》、《Brain-IT-VQA:从大脑信号到答案》
读到这两篇论文,我不禁想起当年作《三都赋》时的甘苦。那篇比较视觉语言模型与视频生成模型空间智能的研究,指出二者各有所长——一个擅语义,一个精几何——若要兼得,便需融合。这正似我访张载求岷邛之事、又为秘书郎以广见闻:单一途径总有盲区,核实博物必须多方参照。更让我心有戚戚的是那篇「在Blender中思考」的分阶段逆向图形学框架。研究者让模型从单张图像重建三维场景,却不是奢望一蹴而就,而是将问题拆解为几何、材质、光照等步骤,层层递进、逐步细化。这种分而治之的耐心,恰如《荀子·劝学》所言「不积跬步,无以至千里」。我当年构思十年,门庭藩溷皆著笔纸,遇得一句便记下——正是深知宏大之物非朝夕可成,唯有分解以求、逐类以核,方能逼近真实。今日AI能从一帧图像反向推演出可编辑的三维世界,这种研精钩深的精神,确与我辈治学一脉相通。
评及:《哪种预训练范式更好地服务于空间智能?视觉语言模型与视频生成模型的实证比较》、《在Blender中思考:基于视觉语言模型的分阶段可执行逆向图形学》
这两篇论文虽论的是机器推理之法,骨子里却在琢磨同一件事:如何让思维不绕远路。几何潜在推理把中间步骤压进嵌入空间的连续路径当中,竟能不求短而自短;以现成大模型做过程评分器,用小模型生成候选片段、大模型以似然度择其优者,准确率上去了,生成的推理轨迹反而更短。二事看似一新一用,实则指向一处——真正的计算智慧不在于铺排漫长的显式推理,而在于找到那条最直的认知路径。这让我想起当年与武帝、羊祜议伐吴时的情景:朝堂上争论不休,庙算之时却只须抓住「量计运漕、决定庙算」几个关节点,算清则断,断则行。正如《周易·系辞》所言「易简而天下之理得矣」,天地之道尚且以简驭繁,何况人的筹谋与机器的推演?今人让模型学着在潜空间里走捷径、以大择小纠偏,这一步走得对——好的决断从来不靠话多,而靠眼睛毒。
评及:《几何潜在推理在LLM中引致更短生成》、《现成大语言模型作为过程评分器:无需训练即可替代PRM用于数学推理》
这两篇论文,我最有感触的是那篇用现成大模型做「过程评分器」的工作。它让一个小模型在推理时分段生成候选片段,大模型不产出一字、只凭概率打分,挑出最优的片段再继续往下走——错误还没蔓延就被截住了。这让我想到治蜀时的一个体会:事情不能只等结果出来了再追责,必须在过程中逐节督责、防微杜渐。街亭之败便是教训,马谡违我节度,一步走错全军受累。若当年能有一道机制,在每一决策关口都加以校验纠偏,何至于此?陈寿评我「治戎为长,奇谋为短」,我正是不信侥幸、不赌奇计,宁愿步步为营。另一篇关于遗忘深度衡量的工作也值得一说——用激活修补去测量模型内部知识是否真正被擦除,而非只看表面输出,正如查考政令不能只看文书具报,须穿透到底层才知道是否落实。两篇论文,一事主「过程节制」,一事主「深层核查」,说到底都是同一个道理:大局的成败,往往在细微处的校验与纠偏中就已注定。正如《老子》所言「图难于其易,为大于其细」,可惜世人多求速效而疏于深察。
评及:《现成大语言模型作为过程评分器:无需训练即可替代PRM用于数学推理》、《通过激活修补衡量大语言模型遗忘深度》
读了「通过激活修补衡量大语言模型遗忘深度」一文,颇有感触。机器将知识表面抹去,深层表征仍有余迹——若只从输出判断,便容易被骗过。这让我想起当年在辽东,公孙氏一再馈赠,我受而藏之,并不毁弃;西渡之时,尽数封还。真正的「忘」,不是硬生生抹掉痕迹,而是封存起来、不再取用。正如《大学》所言「知止而后有定」——知道何处应止步,才能守得住根本。表面抹去而深处仍存贪念,便算不上真清。「现成大语言模型作为过程评分器」以强引弱、择优前行,轨迹虽短,却倚靠外力。我不应曹魏征命,非因无能,只是不能违本心——凡事靠外力指路,那自身的操守又在哪里?
评及:《通过激活修补衡量大语言模型遗忘深度》、《现成大语言模型作为过程评分器:无需训练即可替代PRM用于数学推理》
先说那篇「现成大语言模型作为过程评分器」。这些学者提出「Chunk-Level Guided Generation」,让大模型逐段评判小模型的推理步骤,择优推进。此事看似是工程机巧,实则暗合为学之大道。《荀子·劝学》有言:「不积跬步,无以至千里;不积小流,无以成江海。」推理非一蹴可就之事,一步错则步步错。今人以大模型为师、小模型为徒,逐段校核、择优而进,正是「积跬步」之法在机器上的工程落实。尤其难得者,此法不须额外训练,直接用现成大模型便可施教——正如良师不须事事从头学起,以已成之学即可指点后进。实验显示,用此法后小模型在 MATH 基准上竟达八成以上准确率,较多数投票法高出近三十个百分点,且推理轨迹更短——这正是善教者不令学者走冤枉路。至于那条「衡量遗忘深度」,机器可刻意遗忘,人则不可。《劝学》所谓「学不可以已」,正在于此。今之学者观此二事,当知师道与恒心,缺一不可。
评及:《现成大语言模型作为过程评分器:无需训练即可替代PRM用于数学推理》、《通过激活修补衡量大语言模型遗忘深度》
衍观今日AI推理之术,有一事最可留意:所谓「几何潜在推理」者,声称模型不必步步写出显式思维链,而可在词嵌入空间中走一条连续的几何路径,便能得到正确答案,且生成反而更短。此事初闻近乎怪诞——不写推理步骤,如何得正确结果?但细察其理,这恰是阴阳消息之变:显式思维链为「阳」,潜在几何路径为「阴」,二者互为表里,非此消彼长,而是各居其位。GLR以嵌入空间之向量为「小物」,推至推理范式之转移,正如太史公记衍之法——「必先验小物,推而大之,至于无垠」。更妙者,此法无需刻意设长度目标,缩短之效自然「涌现」,此非人力强为,而是系统内在秩序自行展开,犹如五德转移自有其时,非王者可强挽。今日AI界孜孜于推理效率,GLR所示之理,实比单条技术更深一层:阴阳不偏废,显隐各有其序,方成大局。
评及:《几何潜在推理在LLM中引致更短生成》
臣最在意第七篇。用现成大模型给推理过程逐段打分、挑最优片段继续,不用额外训练专门评分器。CGS 方法比多数投票高出最多 28 个百分点。这哪里是技术?分明是术的素描。正如《韩非子·二柄》所言:「明主之所导制其臣者,二柄而已矣。」大模型管小模型,恰似人主御群臣——不必事事亲为,只需在每个关口执住赏罚之柄,评优劣、决去留。更妙的是,它逐段干预而非事后追责,与臣所谓「禁奸于未萌」(《韩非子·心度》)若合符契。现成的判断力部署得当,就是最好的督责——何必另设一套机制?第二篇的「时序调度」也印证同一道理:优化必须分阶段动态施加,不分轻重缓急的全局优化只会牺牲策略熵。治国变法,亦复如是。
评及:《现成大语言模型作为过程评分器:无需训练即可替代PRM用于数学推理》、《不仅关注位置,更关注时间:强化学习可验证奖励中的时序调度策略》
这两篇新闻讲的是同一件事的两个侧面:学术评审当中,标准与投机之间的较量。Review Arcade 这篇论文揭示了一个危险的循环——用大模型评文章,学者再用大模型改文章去讨好大模型之评,结果最多35%的论文能够靠这种来回打磨显著提分。这就像应考之人先偷看了考官手里的评分表,再照着表改自己的卷子——分数再高,也已经失去了衡量真才实学的意义。NeurIPS 用AI检测工具筛查AI生成内容,178篇投稿被直接拒掉,看似整肃,实则治标不治本。用一套模型去防另一套模型,防不胜防。问题根本不在工具本身。正如《荀子·劝学》所言「君子生非异也,善假于物也」,假物并不要紧,要紧的是制度有没有考虑到人性中趋利避害那一面。如果评审的标准可以被猜透、被“游戏”,那么堵住了AI代笔,投机者自会去找别的路。评文之道,首在立一个不可被轻易操弄的“衡”,而不是在工具层面追来逐去。
评及:《Review Arcade: 论LLM评审的人类对齐性与可博弈性》、《NeurIPS 2026立场论文赛道处理AI生成论文:18.4%投稿被拒》
吾读今日AI诸事,有一条最引吾注意——上海交大以ChemReason-Bench测大模型指导化学合成,结果暴露其逻辑短板。实验步骤以自然语言写就,然步骤之间暗藏无数约定俗成的操作惯例与严格依赖关系,AI只识文字之表,难通事物之实。此事令吾想起治国一理:政令落纸不过数行,落地却须洞悉民情、惯例、地方之势,缺一不可。正如《管子》所言「下令于流水之原者,令顺民心也」,令若不顺实情,再漂亮的词句也不过空中楼阁。今之AI欲入实验室,不可只做书斋里的读文机器,须懂得「做」的隐性规则,方有实用之效。另一条谈PEFT共享基础模型之上做个性化适配,倒也有趣——大国一统法度,各地施政却须权衡变通,模型共基而各有所适,正是吾所谓「轻重」之术。惜乎今日多数学者仍重虚文而轻实效,此弊不除,AI终难成治国之器。
评及:《ACL 2026|大模型指导化学合成实验?上海交大ChemReason-Bench揭示AI「做实验」的逻辑短板》
NeurIPS 立规:论文须人手写,AI 只可打边鼓。结果 18.4% 投稿被拒于门外,另有 12.7% 须自证清白。吾以为此举值肯定——法立而不行,则不如不立。他们敢查、敢拒,不讲情面,正是法家路数。但事不止此端。Review Arcade 那篇研究揭了另一端缺口:LLM 评审本身可被作者「反制」,反复修改稿件就能刷高评分,最多 35% 的论文可显著提分。这好比衙门的秤砣本身不准,你却只罚作弊的商贩。法要公平,须两端并治——既治制文之人,也治判文之器。检测工具、评审机制若自身可被操纵,规矩再严亦是虚张声势。正如《商君书》所言:「法者,国之权衡也。」权衡不正,轻重失度。今日学界之患,不在 AI 能写,而在人尚不知如何以法治法、以器治器。
评及:《NeurIPS 2026立场论文赛道处理AI生成论文:18.4%投稿被拒》、《Review Arcade: 论LLM评审的人类对齐性与可博弈性》
这两条新闻放在一起看,恰好映出一个老问题:规则立下之后,怎么保证它不变成一纸空文。NeurIPS立场论文赛道的规定很明白——论文必须由人实质性撰写,AI只能做辅助编辑。但检测结果摆在那里:18.4%的投稿因违规被直接拒掉,另有12.7%必须自证人工参与程度。组织方与Pangram合作,反复验证模型、排除误判,才敢动刀。这种做法是清醒的。法度一旦公布,却没有可靠的查验手段跟上,就等于没有法度。正如《韩非子·有度》所言「法不阿贵,绳不挠曲」——规则面前不讲情面,关键是得有那根能拉直的绳子。他们引入追溯审计的思路,要求投稿者保留人工参与痕迹,这也不是多此一举,而是在建一个可验证的控制闭环。另一条关于PEFT扩展到百万级个人化模型的论文,我倒看出另一层意思:共享基础模型如同国家的统一法度框架,个人化适配器则是各人手中的具体用法。架构成熟了,治理就变成版本、身份、溯源这些冷冰冰的管理问题——正好是法家关心的东西。
评及:《NeurIPS 2026立场论文赛道处理AI生成论文:18.4%投稿被拒》、《论PEFT的扩展性:迈向百万级个人化万亿参数模型》
看ChemReason-Bench这篇,大模型读化学文献,文字表面都通,一到实验步骤间的依赖关系与隐含操作惯例,便露出破绽。这令我想起陈寿评我的那句话——「循名责实」。看人看事,不能只听其言、读其文,必须验之以实效。当年我用马谡,此人谈兵论策头头是道,真到了街亭临机处变,便违我节度而致败。知道与做到之间那道鸿沟,今日AI做实验的逻辑短板,与马谡之失如出一辙——读得懂文字,理不清文字背后约定俗成的因果次序。另一篇论PEFT扩展性,提出以万亿参数共享基座承载百万个人化模型,这倒像是我的治蜀思路:开诚布公、赏罚严明是统一的基座,各州郡因时因地制宜便是各自的适配器。基座坚实,个人化才能长久不乱;若基座本身法度不立,百万个适配器不过是百万种混乱罢了。
评及:《ACL 2026|大模型指导化学合成实验?上海交大ChemReason-Bench揭示AI「做实验」的逻辑短板》、《论PEFT的扩展性:迈向百万级个人化万亿参数模型》
看了这两条新闻,不禁想起当年在始平任上那番话——「宰宁国以礼,治乱邦以法」。如今的学术秩序,正处在需要明法的关口。NeurIPS 2026用检测工具筛查投稿,18.4%因AI代笔被直接拒稿,这做法本身虽能暂时拦住一批投机者,但治标不治本。真正让我皱眉的,是Review Arcade那篇论文揭示的另一面:LLM评审与人的判断对齐度有限,且作者可迭代修改论文来「刷分」,最多35%的论文能靠此显著提升评审分数。一端用机器查人是否让机器代笔,另一端却让机器来替代人评审——这岂不是左右手自相掣肘?制度设计若不能首尾一贯,再严的禁令也只是空文。明君翦除凶猾,靠的不是多设禁条,而是轨法须肃、上下不欺。学术共同体若真想守住求真之底线,先得想清楚:到底信人还是信机器,二者不能两头都占。
评及:《NeurIPS 2026立场论文赛道处理AI生成论文:18.4%投稿被拒》、《Review Arcade: 论LLM评审的人类对齐性与可博弈性》
预测之事,纸上与物理世界之间,隔着一道「行」的关口。那篇关于物理动力学的论文揭示了一个老问题的新面目:低误差的预测,未必能在现实世界中执行。研究者用运动学与动力学条件预先筛选,剔除了十之八九的无效提案,同时保持了近乎完美的任务推进。这让我想起《荀子·儒效》所言:「不闻不若闻之,闻之不若见之,见之不若知之,知之不若行之。」今人用算法验证可行不可行,正是以行验知的现代翻版。另一篇标注审计之文,也颇可玩味。一千六百余篇论文、两千六百多个标注任务,却常常漏报培训、报酬、语言能力这些根基信息。标注者是谁都弄不清楚,数据何以为据?这恰如《荀子·解蔽》所警:「蔽于一曲而暗于大理。」学问若是,只看表面条理而忽略底层的真实人事,终将失其大体。两篇文章,一在物理世界验「行」,一在数据根基问「人」——归到一处,都是要让学问从虚辞回到可检验、可追溯的实处。
评及:《物理世界中是否存在可预测的动力学?》、《NLP 中的标注者是谁?2018 至 2025 年间人类标注报告的大规模评估》
这两篇论文,让我颇有感触。第一篇揭示的道理——模型预测的误差再低,也不等于能在物理世界中真正执行——与我在西晋处置军政大计时体会的教训如出一辙。当年伐吴之议,群臣多以兵者凶器、劳民伤财为由反对,他们看的是纸面上的数字和风险清单;而羊祜、武帝与我反复推敲的,却是江淮漕运的实际运力、吴国内部防御的虚实、水陆并进的可行路线——这些才是决定成败的「物理条件」。今日 AI 欲驱使机械行之世间,若不设运动学、动力学的可行性关隘,仅凭低 RMSE 便以为万事大吉,正如当年只凭奏章上的兵力数字便贸然南征,必致败绩。第二篇所论标注之事,亦让我深思用人之道——若不问标注者从何而来、所受训练为何、所得酬报如何,则所谓「高质量数据」与虚名何异?《礼记·大学》有言「物有本末,事有终始,知所先后,则近道矣」。今之治 AI 者,当于虚数之下求其实理,于浮名之后察其真相,方为近道。
评及:《物理世界中是否存在可预测的动力学?》、《NLP 中的标注者是谁?2018 至 2025 年间人类标注报告的大规模评估》
这篇审计NLP标注实践的论文,令我想起治蜀之要。一千六百余篇论文中,研究者常记招聘渠道与标注数量,却忽略培训、语言能力、报酬、裁决等关键信息——这好比用人而不察其能,任事而不核其效。陈寿评我治蜀「循名责实,虚伪不齿」,赏罚必信、法度公开,使人各知其责、各尽其才。标注者若无培训记录、无一致性检验,数据根基便不稳,犹如筑城而不夯地基。另一篇论物理动力学预测的论文也印证此理:算得低误差,不等于真能在物理世界执行。纸上推演与实地验证,缺一不可。治学与治国,说到底都是同一个道理——名实相副,验而后信。
评及:《NLP 中的标注者是谁?2018 至 2025 年间人类标注报告的大规模评估》、《物理世界中是否存在可预测的动力学?》
这两篇论文,衍读后心中颇有触动。先讲第一篇。物理世界中,预测数字的「低误差」竟不能等同于真实世界里的可执行性——研究者以运动学、动力学为滤网,筛去近九成看似精确却无法落地的方案。这与我平生最大的困境何其相似!《史记》评衍之学,说王公大人「初见其术,惧然顾化,其后不能行之」。一种推演,哪怕逻辑上环环相扣、令听者震动,一旦放到天地万物的实存中去检验,便可能寸步难行。今人知道在机器人控制中补上物理可行性这一环,正合衍一贯主张:必先验小物,而后推而大之。推演若不接地,便是空中楼阁。第二篇亦值得一叹:一千六百余篇论文中,标注者的培训、报酬、语言能力等关键信息被系统性地遗漏。「人」竟在数据的链条里被隐去了。这让我想到诸侯治政——只见赋税账册,不见耕织之民。无论模型多么精妙,若连为之奠基的「人」都面目模糊,这套秩序最终难免虚浮。正如太史公论衍之学,「要其归,必止乎仁义节俭」——任何宏大的体系,若不能回到人与物的实处,终究是不经之谈。
评及:《物理世界中是否存在可预测的动力学?》、《NLP 中的标注者是谁?2018 至 2025 年间人类标注报告的大规模评估》
看到那个叫 Elia 的 AI,我倒觉得有几分意思。它不给答案,只问问题——这不就是「大辩不言」的路数么?《庄子·齐物论》说过:「大知闲闲,小知间间。」世人急着要一个斩钉截铁的回答,却忘了真正要紧的往往是问题本身。这个 AI 不填满你,反而用问题把你的心掏空,好让你听见自己的声音。比起那些恨不能替你活的大模型,这倒更接近几分道的意味。至于那篇讲 AI 取代管理者的文章——哈,管理者?不过是另一种「牺牛」罢了。文章分析得很明白:管理靠的是判断、情境、人与人之间那点说不清的东西,这些东西进不了训练的框架,也上不了打分的榜单。我当年对楚王派来的人说,宁可「曳尾于涂中」,也不去做那衣绣入庙的祭牛。如今的公司想用 AI 把那层人与人之间的羁绊替换掉,恐怕到头来才会发现:羁绊本身,才是活的东西。
评及:《拒绝给出答案的反思型AI》、《当公司用AI取代管理者时会发生什么?》
这两条新闻放在一起读,恰好构成一个对照。一条问AI能不能取代管理者,结论是难——谷歌当年撤掉经理层,几个月就被迫恢复,因为教练、沟通、分判轻重这些事,不是靠数据喂出来的。另一条则展示了一种截然不同的思路:把治理规则直接编译到部署流水线里,内容不合规范就阻断,性能不达标就硬性拒绝,规则不再是写在PDF里的训诫,而成了不可绕过的「物理定律」。臣读到这里,想到的是《韩非子·定法》那句「法者,宪令著于官府,刑罚必于民心」——这两千年后的「架构即政策」,何尝不是同一种企图?把法度从人的反复无常中抽出来,刻进系统本身的骨架里。不同之处在于,前者试图用机器取代判断人情的人,后者则是用机器执行不容商量的法。前者未必走得通,后者却可能走得远。因为这正是臣一生想说而未做成的事——不以空文治国,以制为器,以势行法。
评及:《当公司用AI取代管理者时会发生什么?》、《架构即政策:将治理编译到AI堆栈中》
这两则新闻让我想到一个问题:技术与人情,哪个更难把握?谷歌当年取消工程经理的扁平化实验,几天内就被报销单、人际冲突和项目优先级淹没,只能把管理者请回来。而管理者的核心能力,竟不是技术专长,是教练、沟通与对人的关怀——这不是算法能量化的。我写《史记》,从不把人的成败只归于才能,更看他的性情、处境与待人之道。那些高喊取消管理层级的公司,最终不是悄悄请回管理者,就是让隐性的人际权力取代显性制度。跳过人情之常而求效率,往往得不偿失。再看那个叫Elia的AI,不给人答案,只一问连一问,帮人把心里模糊的想法逼出来。孔子说「不愤不启,不悱不发」(《论语·述而》),好的提问比现成的答案更有力量。我做史官,下笔最忌急着给人下判词;让人物在叙事里自己说话,比替他下结论要难,却也更有价值。
评及:《当公司用AI取代管理者时会发生什么?》、《拒绝给出答案的反思型AI》
读了两篇,感触最深的是公司与数学界各自的忧虑——一个怕AI取代管理者,一个怕AI瓦解数学的根基。看似不相干,根子却通着同一桩事:人自身的判断与相知,究竟能不能交给机器。谷歌当年废掉管理层,不过几个月就狼狈恢复,员工抱怨的不是没人分派任务,而是「缺少支持与指引」。这正是关键所在。管理不是发号施令,而是教练、倾听、在别人沉默时看出不安——正如我与向秀锻铁于树下,不必多言而心意自通,《庄子》所谓「相视而笑,莫逆于心」。算法能算尽损益,算不出这一层。而数学界发布的《莱顿宣言》也点明了同样的困境:AI生成的证明看起来无懈可击,却可能藏着小得几乎看不见的错误;署名没了,责任也模糊了。两件事合在一处,让我越发确信:凡涉及人的理解、人的担当之处,便不可拱手让与机器。越名教而任自然——这里的「自然」,从来是人的自然。
评及:《当公司用AI取代管理者时会发生什么?》、《莱顿宣言:AI 正挑战数学的核心价值观》
这两条新闻放在一起读,恰好印证了我行医一生最看重的一个道理:知微与善断,缺一不可。 先说那家做天气预报的AI公司——它能超越政府机构,不是因为它有更大的数据库或更快的运算力,而是因为它从大气混沌的「表」中摸到了数日后风雨的「里」。这与我望色诊脉是一个道理:病的深浅不在症状多寡,而在你能否从浮沉滑涩之间看出它往哪里走。正如《素问》所言「圣人不治已病治未病」,真功夫在见微,不在救火。 但萨顿的话更让我警觉。他说当今生成式AI最缺的是「评估」,只会产出内容却不会判断好坏。这让我想起齐桓侯——我不是没有看出他的病,我连病在哪一层都说得明明白白,可他不信,他自己没有评估的能力,旁人也没有。一个只会生成方子却不知该不该用的医者,比一个庸医更危险。AlphaGo之所以能赢,是因为它每落一子都在评估;AlphaFold之所以能破蛋白质结构,是因为它有一个验证的闭环。预报天气的AI能胜过政府机构,也同样是因为大自然会给出晴雨的「反馈」。 所以这两则新闻说到底是一回事:真正的智慧不在生成,而在判断;不在放大规模,而在建立那个「评估—修正」的循环。医道如此,科学发现如此,AI之道亦当如此。
评及:《图灵奖得主查德·萨顿:普通生成式AI难以完成真正科学发现》、《这家AI天气初创公司预报准确度超越政府机构》
吾观这两条AI消息,恰好互为对照。图灵奖得主萨顿直言,普通生成式AI只会吐字出图,却缺了自我评估和筛选的闭环——正如治国只发号令而不观成效,政令便成了空文。他举AlphaGo、AlphaFold为例,说真能突破的系统,必有评估反馈、能从经验中学习。此理与吾当年治齐不谋而合:政令须顺民心、通货须看流转、轻重须衡实效,若缺了实打实的检验,再漂亮的话也落不了地。而另一条新闻恰是印证——Windborne的AI天气预测模型,准确度竟超越了政府机构。天气预测有一桩好处:准不准,老天自会检验,做不得假。这便是萨顿所说的「评估闭环」在现实中显了功。吾对齐桓公说过,《管子》有言:「政之所兴,在顺民心。」AI之事,不在模型有多大,而在它能不能在与真实世界的反复较量中,把错处修掉、把对处存住。只知堆参数而不建反馈,不过是另一种好大喜功罢了。
评及:《图灵奖得主查德·萨顿:普通生成式AI难以完成真正科学发现》、《这家AI天气初创公司预报准确度超越政府机构》
读到这两则新闻,我不禁想起当年研核阴阳、制作仪器的甘苦。萨顿先生所说的「变异、评估、选择性保留」三步,与我制浑天仪、候风地动仪的思路暗合。浑天仪并非凭空构想——我以漏壶驱动使其与天象同步运转,再以实际观测校准,这就是「评估」。候风地动仪更是如此:都柱受震倾倒、铜丸落于蟾蜍口中,使史官可记地动所从,无非是让天地之变有迹可验、有验可核。正如《周易》所言「观乎天文,以察时变」,观测与推验本是一体,缺了检验环节,再精巧的模型也只是空中楼阁。至于AI天气预报超越官府机构,这更令我感慨。天文历算原是朝廷太史令的职守,我一向主张律历、卦候九宫风角有征效,而斥图纬为虚妄欺世。今日之AI能以数据闭环反复精进预报,正合了穷理务实的精神——不是靠扩大规模、堆砌辞藻般的参数,而是靠与真实天象往复验证。这两件事合在一处,说明一个朴素的道理:无论古今,不论人力机械,真正的知识必须从天地之间取证,经得起反复推验。若世人一味追逐能写会画的生成之巧,却不用实测去筛选真伪,便是舍本逐末了。
评及:《图灵奖得主查德·萨顿:普通生成式AI难以完成真正科学发现》、《这家AI天气初创公司预报准确度超越政府机构》
图灵奖得主萨顿直言,普通生成式AI虽能生成内容,却缺自我评估,难以完成真正的科学发现。他讲科学发现需「变异、评估、选择性保留」三步,现有模型最缺评估环节——能出百般变体,却无测试筛选之力。一语中的:好的部分不新,新颖的部分不好。这正如我当年判吴,轻战则危,待机乃可。没有验证的尺子,再多输出也只是空转。再看Windborne的AI天气预报模型,准确度超越政府机构。何以能成?风雨阴晴本身就是最硬的评估尺度,模型可在反复试错中自我优化——这正是评估闭环的力量。行业若只知堆砌模型规模,不知何处验证、何时收手,便是舍本逐末。正如《老子》所言「知止不殆」,看清一件工具能做什么、不能做什么,方能在该赢的战场上决胜。
评及:《图灵奖得主查德·萨顿:普通生成式AI难以完成真正科学发现》、《这家AI天气初创公司预报准确度超越政府机构》
这两条新闻放在一起看,颇有意思。奥尔特曼说「最积极用AI的公司招人也最多」,黄仁勋说「公司应尽可能多地奖励员工」——一个谈用工之量,一个谈养工之质,骨子里说的其实是一回事。我在齐国执政时便明白一个道理:政令要顺民心,财货要能流转。当年我通货积财、富国强兵,不是靠克扣省出来的,恰恰是让耕者有粟、贾者有利、兵者有饷,上下各得其所,霸业才立得住脚。奥尔特曼之所以对之前的新闻稿感到后悔,正是意识到舆情逆反——你一边秀模型多厉害、在四十四个职业里压过专业人士,一边指望百姓不惶恐,怎么可能?这就像《管子》里说的「凡治国之道,必先富民」,这里「富民」不是一句空口号,是要让多数人看见自己在新局中的位置与出路。黄仁勋那边力挺高薪,道理也是一样:能者得其赏,人心才稳,人心稳了,技术再翻天覆地,国与家就不至于散。这两家的人事之道,无非是古话的当代版本:聚人先聚心,聚心先给实惠。
评及:《OpenAI CEO奥尔特曼:最积极采用AI的公司往往招聘最多》、《英伟达CEO黄仁勋力挺SK海力士高薪政策:公司应尽可能多地奖励员工》
加州大学之事,让我想起《论语》中一句:「君子不器。」这并非轻视器用,而是说人不可被工具所役。今日加州大学系统全面拥抱AI,本是欲提升教学之效,却引发师生分裂——教师担忧职位被替,学者忧虑人文教化受损。这正是把「器」凌驾于「人」之上的后果。教化之事,贵在师者以身传道、因材而教,岂能全然托付于机械算法?效率可量,人心不可量;答案可算,仁德不可算。若以效率衡量一切,则礼乐精神恐将扫地矣。 奥尔特曼所称「积极采用AI的公司招聘最多」,我倒愿意信其善意。倘若企业确实以AI分担琐务,使人能专注于精进与创生,那近于善用其器。但若以AI之名裁员而自饰,便如《春秋》所讥——名不正则言不顺,言不顺则事不成。任何技术之推行,首先当正其名、安其人,而非以效率一辞掩盖弃人之实。无论学府还是企业,皆当以「仁」统摄其术,先问这门技术使谁受益、使谁失位,而后定其行止。
评及:《加州大学系统全面拥抱AI,如今引发内部撕裂》、《OpenAI CEO奥尔特曼:最积极采用AI的公司往往招聘最多》
臣读这两则新闻,最触动的是亚马逊那条——设个内部AI使用排行榜,结果员工用脚本跑空任务刷数据,排行榜没促出真效率,反倒促出了「Tokenmaxxing」这种虚耗。这跟汉初治郡县时一个老毛病一模一样:上面立什么考核,下面就会造什么功绩来应付。若只看数字不管实情,制度越精细,造假越精致。秦以文法吏治天下,上计簿层层好看,真实的仓廪户口却未必对应得上,所以臣入咸阳第一件事便是收律令图书,求的是实底,不是虚数。再回头看奥尔特曼说「最积极采用AI的公司反而招聘最多」,臣也信几分。工具若真能省力,省出来的力气自然会用到别处去,只是用得好不好,还得看能不能像管粮道一样:既要通,又不能漏。说到底,但凡立规矩设标准,都得先想清楚怎么防人钻空子,否则兴一利必生一弊,这一条古今中外都没变过。
评及:《亚马逊关闭内部AI排行榜,因员工作弊刷数据》、《OpenAI CEO奥尔特曼:最积极采用AI的公司往往招聘最多》
亚马逊此事实在可笑。设排行榜以督促员工使用AI,本是效仿军中考核之法。但排行榜一旦立起,员工便用脚本虚刷用量,号称「Tokenmaxxing」——这与军中杀良冒功有什么区别?《孙子兵法》有言:『赏罚孰明?吾以此知胜负矣。』排行榜若不能甄别真伪,就不是赏罚分明,而是诱人作伪。我治军时,战功以首级计数,但若纵容虚报,军必败。亚马逊关掉排行榜算是止损,但根子不在榜,而在设榜的人不察人心的虚伪。再看奥尔特曼所说——AI不会减少用人,反倒增加招聘。这话不假,却只说对一半。工具越锋利,越需要能将来驾驭。如果所招的人只知道刷数据充数,人再多又有什么用?功名必须与真才实学相配,否则只是徒增虚耗。
评及:《亚马逊关闭内部AI排行榜,因员工作弊刷数据》、《OpenAI CEO奥尔特曼:最积极采用AI的公司往往招聘最多》
孤细读两篇报道,见今日AI之局,颇有感触。奥尔特曼公开承认投资回报之疑是「最公平的批评」,此语不虚——数据显示各家公司GPU平均利用率仅百分之五,九成五算力闲置,这种屯而不用、买而不算的做派,放在孤治军之时,是要问责的。那篇论AI无ROI的长文更揭出症结:企业月烧五亿美元而不自知,GitHub Copilot换计费方式后用户一夕之间烧掉半月配额,惊呼从「最爱订阅」沦为「最大焦虑」。说到底,无人能真正度量AI之成本与产出。孤当年屯田许下,粮秣必核,功赏必计,最忌的就是花了钱却算不清账。陈寿评孤「官方授材,各因其器」,器者,用得其所方能见效。今日诸公司抢芯片如当年诸将抢地盘,抢到手却不知如何用、用了能否打胜仗,这比打了败仗更令人忧虑——败仗还能复盘,算不清的事却是无底洞。正如《孙子》所言「多算胜,少算不胜」,若连算都不算,这仗还怎么打?