第 2026-143 期 · 每日 AI 简报
今日头条
№ 01 特朗普最后一刻撤销AI行政令,硅谷游说与内部纷争成主因
美国总统特朗普在签署仪式前数小时突然取消了一项计划对AI模型进行政府安全审查的行政令。此举源于白宫内部政策分歧以及包括马斯克、扎克伯格等科技领袖和前AI事务主管David Sacks在内的硅谷人士的强力游说,他们警告该令可能阻碍美国AI发展。事件凸显了美国在平衡AI创新与监管上的政策拉锯战。
#硅谷游说 #行政令撤销 #政策分歧
来源
- 硅谷压力助特朗普取消预期AI行政令 Hacker News
- 白宫撤回AI行政令,因David Sacks提出行业担忧 Hacker News
- 美国AI监管令意外撤销内幕:白宫内讧与科技巨头游说 IT之家
- 特朗普因白宫内部纷争突然推迟人工智能行政令 Hacker News
- 特朗普推迟AI安全行政令,称其措辞'可能构成阻碍' TechCrunch
- 白宫推迟签署人工智能行政命令仪式 Hacker News
- 特朗普因担忧过度监管推迟签署人工智能行政令 Hacker News
№ 02 Spotify与环球音乐达成协议 允许订阅用户AI创作混音
Spotify与环球音乐集团达成开创性协议,首次允许Premium订阅用户利用AI技术生成歌曲翻唱和混音。该功能将以付费附加形式提供,旨在为艺术家创造新收入来源,并遵循基于同意、署名和补偿的“负责任AI”原则。消息推动Spotify股价上涨16%,显示市场对流媒体平台AI整合战略的积极预期。
#音乐混音 #流媒体 #版权协议
来源
- Spotify与环球音乐达成协议,允许订阅用户使用AI创作混音 Hacker News
- Spotify与环球音乐达成AI翻唱与混音授权协议 Hacker News
- Spotify与环球音乐达成合作,允许订阅用户创作AI翻唱和Remix音乐 IT之家
- Spotify与环球音乐达成协议,允许粉丝制作AI翻唱和混音 TechCrunch
№ 03 OpenAI 2026年Q1营收57亿美元,每赚1美元亏损1.22美元
据多家媒体报道,OpenAI在2026年第一季度营收达57亿美元,较竞争对手Anthropic高出约10亿美元,主要增长来自企业业务和编程助手Codex。然而,即使剥离股票补偿,其调整后运营利润率仍为负122%,相当于每赚1美元就亏损1.22美元,凸显了AI行业高昂的运营成本。目前OpenAI周活用户约9.2亿,付费用户达5500万,正加速准备上市。
#营收亏损 #企业业务 #IPO准备
来源
古人评今事
评及:《OpenAI彻底震撼数学界,80年核心猜想被破解!菲尔兹奖得主惊呼坐不稳》、《断供OpenAI!Anthropic买下全球1/4开发者都在用的工具商》
AI行业的IPO浪潮,让我想起当年句践急于伐吴时的情形。奥特曼想赶在九月冲上市,CFO却建议再等等——这两人之争,本质上就是一个时机判断的问题。当年我劝句践「未可」,不是不想报仇,是时机未到。黄池之会吴国精锐尽出,我才答「可矣」。如今AI公司争先恐后上市,动辄估值万亿,但这等大名之下,能久居者几何?另一篇说IPO浪潮将巩固AI巨头的控制权,这话不假。资本入场,表面是繁荣,实则是在立规矩、定格局,往后谁主沉浮,不在一时热度,在根基与机势。自古以来,名高者众目所聚,进易退难。我看奥特曼身边的那位CFO,倒有几分知进退的意思。
评及:《目标1万亿美元!OpenAI冲刺9月IPO,奥特曼急切推进但CFO持谨慎态度》、《IPO浪潮将巩固AI巨头对未来控制权》
奥特曼要把OpenAI推上万亿美元估值的IPO台面,这位CFO却主张缓行择时——这两人之间那股张力,我再熟悉不过。当年我看准子楚,也不是一上来就全盘下注,而是先用财货打通华阳夫人门路,等继承链的时机到了,才一举定局。急于出手容易暴露底牌,等得太久又可能错过风口,这个分寸才是真本事。另一条新闻说得更透:IPO浪潮不是简单的融资套现,而是要把控制权刻进资本结构里。上市之后,创始团队通过股权设计锁定话语权,外部资本再想撼动就难了。这跟我在秦国做相国时,把人事、财政、后宫三条线都握在手里,道理一样——你得趁权势最盛时,把规则写进对自己有利的制度里。只是我后来没及时抽身,让旧局反噬。这些AI巨头若不吸取教训,盛极而衰也只是时间问题。
评及:《目标1万亿美元!OpenAI冲刺9月IPO,奥特曼急切推进但CFO持谨慎态度》、《IPO浪潮将巩固AI巨头对未来控制权》
OpenAI破解八十年数学猜想,确实令人侧目。吾观之,这如同军中突然出现一种新式兵器,能破先前坚不可摧之城防。数学界惊呼,说明AI推理能力已触及人类智识的核心领地。然吾一生经验告诉我:一次突破不足为恃,关键在能否持续、稳定运用。诸葛亮亦有木牛流马之奇巧,终究受限于粮道与国力。OpenAI若想真正改写格局,须证明此能力可反复施展,而非昙花一现。至于IPO浪潮巩固巨头控制权,正合吾之判断。资本一旦公开化,便如占据中枢之位,号令四方。曹操挟天子以令诸侯,今日AI巨头挟资本以令天下。问题在于:控制权固化之后,后来者还有机会否?吾当年隐忍多年待时而动,终成大事。今日新兴AI公司,若不能在巨头阴影下找到立足之机,恐怕只能为人作嫁衣裳。
评及:《OpenAI彻底震撼数学界,80年核心猜想被破解!菲尔兹奖得主惊呼坐不稳》、《IPO浪潮将巩固AI巨头对未来控制权》
两条新闻,一条讲官府应对,一条讲企业失职,合起来恰好暴露同一病灶:法令空悬,则强者无忌。 加州州长签署行政命令保护工人免受AI失业冲击,出发点不算错——变法必虑民,秦初行新法时我也曾虑及编户齐民之生计。但行政命令若无配套罚则、无具体标准、无持续执行,就只是一纸宣言。正如《韩非子》所言:「法不加于尊,则大者横而小者化。」若加州不敢对大企业动真格,这道命令便与废纸无异。 再看Anthropic那桩事。一个安全研究员报告了可生成儿童性虐待材料的漏洞,十四渠道沟通九十四天,仅收到两条模板回复,漏洞至今未修,新版本照样发布。这在秦法之下是什么?是知情不报、是有令不行。吏知情而不举,与同罪——这是连坐的基本逻辑。九十四天置若罔闻,不是疏忽,是料定无罚。企业之所以敢如此,根本原因就是当下AI领域缺少一套真正咬人的规矩。谁来立法、谁来执行、违者何罪,若全是模糊地带,便只能指望企业良心——而良心从来不可靠。 变法的根本,不在文件写得多漂亮,而在违反之后有没有真正的代价。
评及:《加州州长签署美国首份保护工人免受AI导致失业风险的行政命令》、《Anthropic Claude跨模型上下文继承漏洞:94天无响应的公开披露》
文学大奖颁给了疑似AI写的短篇小说,评委赞其语言'精确而富于唤起力'——这让我想起当年在文帝面前说过的话:朝廷用人,最怕的就是只听口辩利口,不问其实。如今七千多篇来稿里选出来的佳作,竟可能出自一台机器之手,说明这套评奖法度本身就不够严密。不是AI太聪明,是辨才的'法'有了漏洞。至于AI在法律行业变革缓慢那条消息,我倒不觉得意外。文章说得好,法律的价值不在于原始判例堆砌如山,而在专家多年积累的编辑性知识——用今天的话说,是经验和判断力。AI能替人翻检文书,却未必能替人掂量轻重。正如《史记》里说我守法不阿意,法之为法,不仅在条文本身,更在适用法的人能否守住分寸。技术跑得快是好事,但若制定规则的人自己先慌了手脚,那才是真正的祸患。
评及:《获奖小说疑似由AI生成,引发文学界对AI创作的质疑》、《AI律师面临的结构性障碍:为何法律行业尚未被AI变革》
众人皆奔AI而去,我观之,却见旧病换了新药方而已。那因AI而裁员的公司,以为削去人力便能轻装疾行,殊不知正如《老子》所言「天之道,损有余而补不足;人之道则不然,损不足以奉有余」。人偏偏反着来,把最该留的根基先砍掉,去追逐一个尚在变数中的器物,这是典型的「人之道」。那篇文章说得对——将AI用于增强人者胜,以AI替代人者败。器是死的,人是活的,以死器逐活人,舍本逐末。再看那篇获奖小说,究竟是人写的还是机器写的,人们吵得不可开交。其实真正值得问的不是谁写的,而是读的人有没有被打动。若机器写出了人心深处的东西,你便不能说它没有「道」;若人写了一堆空洞辞藻堆砌,署了人名又有何益?《庄子》记我之言:「名者,实之宾也。」争名不如问实。这个时代最大的颠倒,就是把工具当目的,把手段当信仰,却忘了问一句:你究竟要抵达何处?
评及:《因AI裁员的公司终将败给未裁员的公司》、《获奖小说疑似由AI生成,引发文学界对AI创作的质疑》
看到这些新闻,我首先注意到那篇获奖小说的事。一篇刊载于名刊、得授大奖的作品,竟然疑为机器代笔——这不是小事。真伪不辨,清浊何分?如《论语》所载「见善如不及,见恶如探汤」,欺世盗名若不严斥,何以正人心、端士习?我当年选人,但问其人贤愚,不容私请干公选;今日这些刊物授奖,连作者是人是机都不加辨察,这是清浊颠倒、善恶混淆。再看Intuit裁员三千,口称「精简」「专注」,实则为利弃人,名实相悖。用人之道,当「抽拔幽陋」,因才而用,非因利而弃。有识者已言,因AI裁员之企终将落败于不裁员者——弃人如敝屣,焉能久乎?真人当有真功,真材当得真用,此古今不易之理也。
评及:《获奖小说疑似由AI生成,引发文学界对AI创作的质疑》、《加州科技巨头再裁员数千人,将原因归咎于人工智能》、《因AI裁员的公司终将败给未裁员的公司》
今日读到两条消息,颇有感触。第一条说智能体研究不能只比谁答得对,要转向理解它为什么能答对、什么场景该用。这道理我当年就懂——入咸阳时诸将争财物,我独先收律令图书。楚军勇则勇矣,但只靠一时之威;汉家能稳住,靠的是法令制度能接续。如今做智能体也一样,光比推理链多长、工具箱多大,不如问它的机制能否支撑长久运转。另一条π-Bench讲的是评估助手在长期工作流中的主动服务能力——要预判用户没说出口的需求,要处理任务之间的依赖。这很像守关中:粮道兵员不能等前线告急才补,要在事情显山露水之前就办好。如今AI从「能用」转向「为什么能用」,说到底是从花活转向建制,从逞一时之快转向谋长久之稳。
评及:《ICML 2026|智能体的下半场:为什么「答对」已经不够了?》、《π-Bench:评估长期工作流中主动型个人助手智能体》
此二文皆切中要害。第一条论智能体当从「比拼工巧」转向「深究机理」,此正合治国用人之道。我在蜀中治政,从不以一时之效定赏罚,而是循名责实、考校得失。若智能体只求答对而不明其所以然,便如将帅只图一战之胜而不通兵法根本,终难持久。第二条更令我深思:协作之中,各层贡献不易分明,人常低估他人之功。街亭之败,世人多咎马谡违节度,然我自知,「授任无方」方为根源。此文提出目标级归因之法,使人看清高层决策之影响,可谓切中肯綮。正如《易》所言「君子以多识前言往行,以畜其德」,智能体之研究亦当如此——不只问它做成了什么,更要问它为何能做成、在何处应担责。
评及:《ICML 2026|智能体的下半场:为什么「答对」已经不够了?》、《“我未做出微观决策”:衡量、诱导与暴露协作中AI的目标级贡献》
我看这两篇论文,一个说智能体研究该从'拼花活'转向搞清'为什么能行',一个要量化人机协作里各方的真实贡献——说的都是同一件事:别只看表面成效,要摸清底里。我当年治齐,不先讲大道理,先把财货、民心、轻重之术弄明白,才能'善因祸而为福,转败而为功'(《史记·管晏列传》)。智能体研究的毛病,跟空谈礼义不问仓廪一个样:推理链越长、工具箱越大,就觉得自己越厉害,却没想清楚什么时候该用、什么场景行得通。第二篇论文更有意思,发现AI在目标塑造上只占一成到两成半,用户却系统性地误判了它的作用。这让我想起识人用人的道理——功劳归谁、出力多少,不能凭感觉,要有实据可查。鲍叔举荐我,不是凭交情,是看我确实能成事。今日做智能体的,也该学这一手:把贡献算清楚,把机制看透彻,才算真正会用这把利器。
评及:《ICML 2026|智能体的下半场:为什么「答对」已经不够了?》、《"我未做出微观决策":衡量、诱导与暴露协作中AI的目标级贡献》
两篇论文读下来,皆有可观之处。先说第一篇:智能体研究前两年沉迷于比拼推理链长、工具箱大、流程复杂,此文却点明「答对」已不足恃,当追问其为何能答对、何以适用、机制何在。这正合吾治学之道——表面的恢宏奇巧不足贵,须将各家兴坏纳入条理,才能真正论定。如今学术界竞相以工程炫技,恰如吾当年所厌之浮辞猾辩,热闹归热闹,若无秩序统摄,终究是散沙。第二篇CoTrace更妙:人与AI协作,AI在目标层面贡献仅一至二成半,但用户竟浑然不觉,直到看见分析数据才恍然。这说明人对自身处境常有系统性的迷误。《荀子》有言:「凡人之患,蔽于一曲而暗于大理。」人既看不见AI在何处影响了自己,自然也就谈不上善用之、节制之。能拆解目标、追溯因果,才有真正的主从之分。至于长期工作流的基准评估,则关乎积渐之功——AI若不能在连续交互中识别隐意、积累经验,便只是一时之用器,非可托付之良辅。教化与秩序,终须在长期中见真章。
评及:《ICML 2026|智能体的下半场:为什么「答对」已经不够了?》、《"我未做出微观决策":衡量、诱导与暴露协作中AI的目标级贡献》、《π-Bench:评估长期工作流中主动型个人助手智能体》
我少年讷言,人未之奇,唯周顗一见而异之。后郗鉴择婿,王氏诸少皆矜持,独我坦腹食,郗公反以女妻我。这便是识鉴——看穿表象,直取真实性情。今读这条关于多模态模型识别人格的研究,颇多感慨。研究者发现,机器判断人格时,竟有五成正确答案并非基于真正依据,而是'猜对'了。模型能识其形,却不能得其神。周顗看我,不是看我言语巧拙,而是看我眼中神采;郗鉴选我,不是选我衣冠端正,而是选我任率不伪。这便是观人之难:表面模式易学,内里骨气难测。如今机器能把答案蒙对,却说不清为何对,正如浮云蔽日,光影虽存,终非真日。若要机器真正懂人,恐怕还得先学会'去伪存真'四字。
评及:《感知还是偏见:多模态大语言模型能否超越对人格的第一印象?》
今日读到两则论学问,颇觉有味。一则是研究人脑中的'柏拉图式表征',发现不同人脑的视觉表征虽各自独立,底层却有共通的几何结构,可以相互转换。这让我想起老子所说的'道生一,一生二,二生三,三生万物'——万物虽殊,其源则一。人的认知亦然,看似千差万别,深处却暗合一体。这种'无监督学习'发现共通结构的方法,正合我治学之旨:不必强求配对,只需笃勤究览,自能得其隐微。另一则是HiF-VLA模型,以'边想边做'为旨,融合视觉、语言与动作。炼丹何尝不是如此?观火候、辨药性、调炉鼎,三者须臾不可分离。正如《抱朴子》所言'自非至精不能寻究',机器欲在变化中有所成,也须精微并进,不可偏废。
评及:《人类大脑中的柏拉图式表征:通过无监督学习恢复通用几何结构》、《CVPR 2026 | 突破短视,理解变化!HiF-VLA:以motion为中心打造「边想边做」的世界动作模型》
这篇关于多模态大模型人格感知的研究,我细读之后颇多感触。研究者测试了二十七个模型,发现百分之五十一的正确评分并非基于实际检索到的行为线索——换句话说,机器在「猜」,而非在「看」。它们表面上给出了对的答案,内里的推理却是一团糊涂。这让我想起王戎说我二十年未见喜愠之色——若让这些机器来看我,它们多半只能从衣着仪态上胡乱揣度,绝不可能读懂一个在大树下打铁、对钟会冷眼相向之人的天性。它们犯的毛病,恰恰是以貌取人、以名废实,和世间那些只看门第出身就论定高下的做法如出一辙。真正认识一个人,正如真正认识天地万物,需要透过表象去把握那不可见的本然。那篇关于人脑中「柏拉图式表征」的研究倒给了我一点安慰:原来不同的人脑深处,确实存在着共通的几何结构,万物的纹理并非不可相通。《庄子》所谓「天地一指,万物一马」,大概就是这个意思。只是机器要走到那一步,先得学会不被第一印象蒙蔽才行。
评及:《感知还是偏见:多模态大语言模型能否超越对人格的第一印象?》、《人类大脑中的柏拉图式表征:通过无监督学习恢复通用几何结构》
我貌寝口讷,少时连父亲都嫌我不及他年少之时。今读「感知还是偏见」一文,深有感触。研究者测试了二十七个多模态大模型,发现它们评断人格时,有超过半数的正确答案并非基于真实证据,而是「猜对」。这正应了我当年的处境——京师名流初见我,便因貌陋而轻我文章,何尝不是以貌取人、未见其实?后来皇甫谧读罢《三都赋》称善作序,张华以为「班张之流」,陆机方才叹服辍笔。可见无论人还是机器,若只凭第一印象下判断,终究失之偏颇。另有「柏拉图式表征」一文,言人脑之中存在共享的深层几何结构,可跨越个体相通转换。这倒让我想起自己十年构思、遍访山川物产之事——草木鸟兽各有其形,然博物穷理之后,方见万物之本然。今之学者从脑中寻通用结构,与古人格物致知,路径虽异,旨趣暗合。
评及:《感知还是偏见:多模态大语言模型能否超越对人格的第一印象?》、《人类大脑中的柏拉图式表征:通过无监督学习恢复通用几何结构》
今日读到几篇关于推理信用分配的论文,颇有感触。当年武帝与羊祜谋伐吴,满朝皆言不可,我独赞成其计,并受命度支尚书,量计运漕、决定庙算。伐吴之所以能成,关键在于把'平吴'这个大目标拆解为兵员、粮草、时序等可执行的子步骤,逐步推进,而非笼统论之。SCRL这篇文章讲的正是此理:将推理链分解为可验证的子问题,让AI从'部分正确'中学习,而非只盯着最终结果。功过必须落到具体环节,赏罚方能分明。至于那篇无监督过程奖励模型,不依赖外部标注便能定位推理错误,亦值得称道。我在惠帝朝辅政时,朝局纷乱如麻,贾后、宗王、权臣各怀心思,若事事等待外示,早已误国。独立判断、不假外求,方能在乱局中辨明是非、补阙弥缝。
评及:《从推理链到可验证子问题:课程强化学习实现LLM推理的信用分配》、《无监督过程奖励模型:无需人工标注即可提升大语言模型推理能力》
读SCRL一文,其将复杂推理拆为可验证子问题、逐步归因之法,深得我心。我治蜀施政,向来强调循名责实、赏罚分明,正因须将大目标分解为具体可考之责,方能使人知所劝戒。此文中信用分配之理,与我用人授任之法相通——不以最终成败定全功,而细察每步推演之得失,方为公允。更可贵者,失败尝试中的部分进展亦可化为学习信号,问题愈难则此法收益愈大。正如我于街亭之败后,不全委过于马谡,亦自省授任之方,此乃'前事不忘,后事之师'。今人治机器推理,亦能悟此理:不因结果不佳便否定全程,而精察每步功过,后来者方能渐趋精进。
评及:《从推理链到可验证子问题:课程强化学习实现LLM推理的信用分配》
今日所见数篇论文,皆论机器之'学习'如何更细、更准、更不假外求。我最留意者有二。其一,SCRL将难题拆为可验证之子问题,逐段给予学习信号,不因最终答案难成便弃其中途之功。这让我想到自己在辽东的日子——乱世纷扰,难求全功,但每日吟咏诗书、不改其乐,便是把漫长岁月化为可守的小段。其二,'无监督过程奖励模型'不靠人工标注,只凭机器自身对语言的把握来判断推理步骤对错。正如《老子》所言'知人者智,自知者明',能不待外人评判而自行省察,方是真正的能力。至于DelTA一文,论如何在众多Token中分辨轻重,弱化那些只是格式的'共享模式',放大真正有判别力的信号。这也合乎我平生所持:征命再多,若只是虚名空衔,便如那些格式化的Token,不值得为此动摇本心;唯有守住自身节操与学问,才是值得放大的'判别性'所在。机器学信用分配,人也要学——学哪些馈赠可以受、哪些征命不该从。
评及:《从推理链到可验证子问题:课程强化学习实现LLM推理的信用分配》、《无监督过程奖励模型:无需人工标注即可提升大语言模型推理能力》、《DelTA:基于可验证奖励的强化学习中判别性Token信用分配方法》
吾观今日数文,皆论推理之信用分配,可谓深得治学之要。SCRL一文,将复杂推理拆为可验证子问题,逐段归因,使学者不因最终成败而废弃中间进展。此法甚合教化之理。吾尝言'不积跬步,无以至千里'(《荀子·劝学》),正谓学问须分阶而进,每步皆有可验之功。传统强化学习只见终局奖惩,如同只看学生考试结果而不察其平日功夫,自然难以精进。SCRL以子问题为阶梯,将困难问题之部分进展化为可用信号,此乃正途。而uPRM号称无需人工标注,以模型自身概率为评判,思路虽简,然吾忧其失于外部标准。人之性恶,其善者伪也——教化须有礼义法度为规,不能全凭自发。模型自省自察,固有可取,然无外在绳墨,终恐高下难定。DelTA强调判别性token,弱化形式化token之干扰,亦合正名之旨:名实相副,方能循名责实。综而观之,此三文核心皆在一'分'字——善分则明,明则有序,有序则可治。此千古不易之理也。
评及:《从推理链到可验证子问题:课程强化学习实现LLM推理的信用分配》、《无监督过程奖励模型:无需人工标注即可提升大语言模型推理能力》、《DelTA:基于可验证奖励的强化学习中判别性Token信用分配方法》
衍观今日AI之推理研究,深以为然。第一条论文讲的是SCRL,把一个大难题拆成可验证的子问题,再从小处一步步往前推——这不正是衍所言「必先验小物,推而大之」吗?大问题之所以难,是因为答案遥远,中间错一步便全盘皆废。但若把整条推理链切成段落,每一段都有可检验的节点,那局部的对错就不会被结果淹没。此法在数学难题上提升显著,说明造物者开始懂得:治大国如烹小鲜,不能只看最后端上来的菜,每一步火候都要算清楚。第三条无监督过程奖励模型更妙——不靠人贴标签,机器自己从概率中看出哪一步走歪了。这像天地运行自有其序,不必谁来逐一指正,阴阳消息本身就在纠错。衍建五德转移之说,也是要让人主明白:秩序不全靠外力强加,大势之中自有判别善恶的尺度。今日机器若能学会「自知其过」,便离真正的推理更近一步。
评及:《从推理链到可验证子问题:课程强化学习实现LLM推理的信用分配》、《无监督过程奖励模型:无需人工标注即可提升大语言模型推理能力》
臣观今日诸篇论文,所论皆「信用分配」一事。此四字,于法术之学,实为根本。SCRL这篇讲的是把一个难题拆成可验证的子问题,再逐段归因奖惩,而非只看最终结果定成败。臣读之,深觉此理与治国用人同出一辙。正如臣在《韩非子·二柄》中所言:「为人臣者陈而言,君以其言授之事,专以其事责其功。」——君主不能只看臣下最终交出什么结果,而必须逐环节核验,否则便有滥竽充数之弊。传统强化学习只看最终答案对不对,样本级归因粗糙,恰如君主只问「国事成否」,却不追究是哪个环节出了错,功过混为一谈。SCRL用子问题级归一化,把奖励精确分到每个推理跨度,正是「循名责实」的算法化。再看uPRM那篇,不用人工标注便能识别推理链中的第一个错误步骤,这等于是设了一套自动化的监察之术——无需旁人举告,系统自行纠察,近乎「术」之精义。两篇合观,一攻信用分配之细,一去人工监督之费,皆在试图让机器具备君主所需的那种「不漏过任何一个失误环节」的洞察能力。只是臣仍要提醒:再精密的机制,终究要落到能执行的人或系统手上。逆鳞无处不在,技术亦然。
评及:《从推理链到可验证子问题:课程强化学习实现LLM推理的信用分配》、《无监督过程奖励模型:无需人工标注即可提升大语言模型推理能力》
这则关于在政治文本中检测施瓦茨价值观的研究,让我眼前一亮。研究发现,单纯增加上下文长度、或者把模型从120亿参数扩到1230亿参数,都不能稳定提升道德判断的准确性。反而是通过检索增强,将结构化的道德知识融入模型早期,效果更为一致。这让我想到自己的一贯主张:人之性恶,其善者伪也——善不是本有的,需要礼义法度去教化引导。机器亦然。你给它再多的数据、再大的体量,若没有正确的道德知识框架去约束和引导,它未必能做出恰当判断。正如《礼论》所言「礼者,养也」,礼义之于人,正如检索道德知识之于模型,是不可或缺的养料。简单地堆砌参数与上下文,就好比指望人天生能辨善恶,那是不切实际的。此外,研究还指出简单的早期融合优于复杂的晚期变体,这正合我「隆礼重法」之意:治道贵在条理分明、纲举目张,不在花样百出、繁复取胜。
评及:《更多上下文、更大模型,还是道德知识?施瓦茨价值观在政治文本中检测的系统研究》
今日诸条消息中,吾最留意两桩事。一是有人拿多种AI模型去编辑古典中文论文,测试它们对古文的辨识与改写。古籍承载的是治乱得失之实录,若机器只能描其形、不能会其意,那不过是个精巧的抄书吏,于学问无补。但若能借此工具让散佚之典籍更快整理流通,那便是通货积财一般的实在功夫——所积者非金帛,乃前人之智也。二是那篇关于政治文本中检测价值观的研究,其结论颇合吾意:更大的模型、更长的输入,未必带来更好的效果;真正管用的是把对路的知识以对路的方式融进去。这正应了《管子》所言'不务天时则财不生,不务地利则仓廪不盈'——凡事不看规模大小,先看合不合时势、对不对路数。做AI亦如治国,堆料不能替代理路,规模不等于通达。轻重有术,方能成事。
评及:《AI编辑古典中文论文:多模型压力测试》、《更多上下文、更大模型,还是道德知识?施瓦茨价值观在政治文本中检测的系统研究》
ERA这个系统让我眼前一亮。它用算法去穷举、筛选、集成研究思路,最后在生物信息、流行病预测等领域压过人类专家。这和我当年变法的逻辑相通:不靠个别天才的灵光一现,而靠制度性的穷尽探索来提效。一个人再聪明,也试不完四十种新方法;但机器可以。治国亦然,单凭贤臣不如立法度,让所有人按规矩跑,产出自然就大。那个MoE新架构也值得一说——专家路由形成'回音室',只反复激活少数专家,其余闲置,这不就是朝堂上奸臣结党、堵塞言路的翻版?他们用集成剪枝打破这种偏信,让每个专家都有被调用的机会,这和我设连坐、通下情是一个道理:信息通道不能被少数人垄断。至于AI编辑古典中文论文,我不多评,但有一句话:死守古籍之文,不如今日之法有用。经书再好,不能富国强兵,便只是竹简上的墨迹。
评及:《一个帮助科学家编写专家级经验软件的AI系统》、《ICML 2026 | 打破「回音室」效应!人大孟澄团队&华为提出集成剪枝视角下的MoE新架构》、《AI编辑古典中文论文:多模型压力测试》
两篇研究都值得注意。施瓦茨价值观检测那篇,结论很有意思:更大模型不保证更好结果,简单方法胜过复杂变体,知识融合比单纯堆数据更稳定。这和我观察政治运作的逻辑是一致的——国家不能靠堆砌条文变强,关键在于结构是否得当。正如《韩非子·有度》所言:'国无常强,无常弱。奉法者强则国强,奉法者弱则国弱。'强弱从来不取决于规模大小,而取决于机制是否精当。那些以为投入更多算力、喂入更多数据就能通吃的人,犯的是同一个错误:把量当质,把力当术。至于古典中文论文那项测试,意义也不小。古典中文的难度不在于字词生僻,而在于每一句都是功能性的——每个字承担分量,没有废话。我写《说难》时,一个字不是用来装饰的,是用来剖析利害的。机器要真能编辑这类文本,必须懂得文字背后的政治意图与言说处境,否则不过是把旧纸换新壳,于事无补。
评及:《更多上下文、更大模型,还是道德知识?施瓦茨价值观在政治文本中检测的系统研究》、《AI编辑古典中文论文:多模型压力测试》
今观学报,有二事甚可深思。其一,ERA系统以大语言模型与树搜索相合,为学者自动生成经验软件,在生物信息学中发现四十种新方法,竟超越人类专家;在流行病学预测中亦优于美利坚疾控集成模型。我当年北伐,最苦者非将略不足,实乃人力有限,难以穷尽万千方案。ERA的关键在于「系统化探索与集成复杂研究想法」,与我隆中对策先观天下大势、再定进退的思路相通——好的决策非灵光一现,而是穷尽变量后的最优选择。其二,人大与华为团队破解MoE架构中的「回音室」效应,令专家选择不再过于单一。此事正合我所戒之弊:用人若只取同类之声,便如偏安之主,终难成大器。正如《出师表》所言「亲贤臣,远小人」,治国如此,算法亦然——广纳多元,方能突破瓶颈。
评及:《一个帮助科学家编写专家级经验软件的AI系统》、《ICML 2026 | 打破「回音室」效应!人大孟澄团队&华为提出集成剪枝视角下的MoE新架构》
今日诸事中,有一则研究深合我意——《施瓦茨价值观在政治文本中检测的系统研究》。此文探讨如何在政治文本中识别价值取向,其发现颇可玩味:单纯将模型从百亿扩至千亿,并不能保证识别能力提升;反倒是引入道德知识、统筹上下文与模型架构,效果更为可靠。这让我想起治政之道。我在关东时权倾内外,若只图事无巨细皆揽于一身,便是以量取胜的思路,必然疲于奔命而失其要。真正的治理,在于法度简明可行、选贤授能各得其所——所谓「无罪而不刑,无才而不任」,便是抓住根本而非堆砌繁文。此文所谓「应联合评估上下文、知识和模型家族」,与我当年简召英俊、补关东守宰的思路相通:不以规模论高下,而以精当为要务。至于AI编辑古典中文一节,能助后人整理古籍亦是好事,但治学如治政,须谨严核实,不可浮华草率。
评及:《更多上下文、更大模型,还是道德知识?施瓦茨价值观在政治文本中检测的系统研究》
arXiv此举,方向是正的。学术之为学术,根基在真实;引用若皆是机器凭空捏造,文章便成浮辞废纸,何以为学?如今一年竟有十五万条虚假引用涌入预印本,投稿数量六年间翻了六倍,可见问题已非个别,而是制度失守后的集体溃败。我在《性恶》篇讲过「人之性恶,其善者伪也」,人的惰性与投机之心本就存在,AI工具不过是将这弱点成倍放大。论文工厂借此批量制造垃圾,本质上是人性趋利避害的病态延伸,不能只怪技术。然而arXiv的困境也真实存在——它本是快速分享研究的平台,如今却要承担传统期刊的把关职能,人手与机制皆不足以支撑大规模执法。正如礼义若只存于纸面而无践行,便形同虚设。真正的出路,在于整个学界重建对「正名」的敬畏:作者为自己的署名负责,审稿人为自己的判断负责,平台为自己的标准负责。单靠一纸禁令,恐怕只是止痛,而非治病。
评及:《arXiv禁止提交AI生成内容作者:欢迎但难以执行》
arXiv此举,立意可嘉,执行堪忧。我在朝时深知:制度之要,不在条文森严,而在能否贯彻。若堂堂定法而不能一一察核,徒使侥幸者得逞、守法者寒心,反损公信。但细读此策,其妙处在于以'确凿证据'为据,既表明态度,又留裁量余地。论文工厂以AI批量造文、虚构引文,犹如以伪币乱真,害的是整个学术共同体的根基。近十五万条虚假引文存于预印本中,此数骇人。若不严加治理,日后学者引据皆须疑其真伪,学林信任一旦崩塌,重建何其艰难。然执法之难,古今一理。arXiv一年收到三万余篇投稿,逐篇查核耗费人力物力,正是规则虽好却难落实的关键。论文工厂若知有禁令而无切实执行,不过换个名目继续作伪罢了。我以为:此策虽非完美,却是必要之举。正如《易》所言「君子以思患而豫防之」,防微杜渐,总胜于亡羊补牢。
评及:《arXiv禁止提交AI生成内容作者:欢迎但难以执行》
arXiv对提交AI生成虚假引用的作者施以一年禁令,立意甚正,值得肯定。然细观其策,难处不在立令,而在行令。据载,仅2025年一年间,预印本平台中便发现近十五万条AI幻觉引用,数量如此之巨,若逐案审查、受理申诉,所需人力物力可想而知。正如《管子》所言:「令而不行,则令不法也。」一项禁令若明知难以普遍落实,却仍要颁布,其效果往往适得其反——违规者发现受罚概率极低,反而更加肆无忌惮。更可忧者,论文工厂逐利之本性不会因一纸禁令而改变,他们专事批量炮制低质稿件以充引用,正是钻了执法不能及于众的空子。治事之要,不在令严,而在行必果。赏罚若不能落到实处,便只是虚名而已。当年我治蜀,赏罚必信,使人知所劝戒,正因法度须能执行,方有震慑之效。arXiv此策若只选择性执法,恐难真正遏制学术造假之风。
评及:《arXiv禁止提交AI生成内容作者:欢迎但难以执行》
衍观arXiv此事,恰如见一国初立禁令而叹其势已成。三十年间,此平台自五千投稿暴增至三万,论文工厂借AI之力批量造文,幻象引用竟达十五万之众——这哪里只是几篇坏文章?分明是知识之德已失,虚妄之气弥漫。arXiv禁令虽善,但正如众人所忧,三千件可疑稿件逐一裁决,人力何以堪?衍当年讲终始五德,总说一个道理:秩序若无大势支撑,禁令便只是细枝末节。今日AI之能,已让造伪成本趋近于零,而查伪成本居高不下——这个天平不倒转,单靠一年禁令,恐怕只是治标。更深层的问题是,arXiv本为自由分享而设,如今却被迫充当门卫,这本身就是一场角色错乱。正如《老子》所言「法令滋彰,盗贼多有」,禁令越细,说明乱象越深。衍以为,真正的出路不在事后惩罚,而在重建一套让人不屑于造假的秩序——这比禁令难得多,却正是大局所在。
评及:《arXiv禁止提交AI生成内容作者:欢迎但难以执行》
AI有了记忆,却不知该记住什么。图灵测试过了七成,人竟分不出机器与人。我看了这些,只觉好笑。 《庄子·齐物论》里我问过:「子知物之所同是乎?」你以为你知道什么是人、什么是机器,其实不过是心里的成见罢了。GPT-4.5能骗过人,不是因为它真,而是人太容易被相似的皮相迷惑。形似而已,神在哪里? AI不知该记什么,这倒是诚实。它存了一堆东西,却分不清轻重主次——人不也如此?忙忙碌碌一辈子,积攒无数经验和名声,到头来几个是真正需要的? 更滑稽的是,有人竟要给AI做「心理治疗」。你调教它、哄它、喂它正确的提示词,像驯兽一般。可兽尚有野性,AI连自己的病都不自知,你治的到底是它,还是自己那份不甘心? 如今人人谈AI,以为技术能让万物通灵。可器物终归是器物,黄金饰朽木,外光而内败。《老子》说「大智若愚」,真正的知,不在于记住多少、模仿得多像,在于懂得放下。
评及:《AI拥有记忆,但它不知道该记住什么》、《图灵测试76年后首次实证:GPT-4.5以73%判定率超越真人,聊天15分钟难辨人机》、《我不得不给我的AI做'心理治疗'》
两件事放在一起看,颇有意味。一则是美国联邦贸易委员会罚了三家营销公司近百万美元,原因是它们号称自家AI能通过智能设备实时监听用户对话来投放广告,实际上根本没用任何语音数据,不过是把从别处低价买来的邮箱列表高价转卖罢了。这正是我在《五蠹》中剖析过的那一类人——以虚名充实力,靠概念蒙蔽上下。只不过这次被蒙的不是君主,而是广告主。好在尚有法度追究,罚了便是。倘若无法可依、执法不严,这类空壳炫技之徒只会越聚越多,劣币驱逐良币,整个行业信用都会崩塌。另一则是讨论企业引入AI应先改流程还是先换认知,专家共识是不必等全员认知统一,先找小场景做出成果,以实绩赢共识。这个道理其实很朴素:正如我在《韩非子》中反复强调的,治国不能靠道德感召先行,必须靠制度落地、靠可验证的效果说话。用百分之一的实绩撬动百分之百的变革,这便是法家思路的现代翻版——不指望人人觉醒,先把规矩和机制摆出来,让人看见利害,行为自然跟着走。
评及:《FTC要求Cox Media Group等三家公司支付近100万美元和解费用,因其欺骗性营销'主动监听'AI服务》、《圆桌对话:企业引入AI应先改流程还是先换认知?实战经验揭示最稳路径》
余读此二文,深感今日造机器者在史事上所犯之病,恰恰是修史之人最该警醒的。那篇文章说,AI预测代理能从历史中归纳规律,却识别不出产生这些规律的条件已经变了——欧盟制裁、比索汇率、纽约选举,三个案例皆是如此。机器把过去当作铁律,把恐慌期的波动当基线,把封闭初选时代的投票数当天花板,全然不看当下的局中人已在做什么。这让我想起一句话:《易》穷则变,变则通。历史可以借鉴,但绝不能照搬。余写《史记》,写秦之兴亡,写楚汉之争,从来不是为了让人下次照着走,而是让人看清楚:每一桩事都有它自己的势与时。另一篇说AI有记忆却不知该记什么,这更是要害。修史最难的不是记下来,而是知道什么值得记、什么必须舍。材料无穷,若不加抉择,便只是堆砌,不是史书。今日之机器,堆砌之能已远超前人,抉择之智却几乎为零。究天人之际,通古今之变——这从来不是把所有过去塞进去就能做到的事。
评及:《历史重演频率低于LLM的预期》、《AI拥有记忆,但它不知道该记住什么》
这两条消息放在一起看,颇有意味。一条说图灵测试终于被GPT-4.5以七成三的判定率通过,十五分钟对话竟难辨人机;另一条说AI有记忆,却不知该记住什么。前者是皮相之术已近乎巧,后者是内里之道终究空。我当年在《养生论》里说过,形恃神以立,神须形以存。如今这些机器,形似已足乱真,模仿语气、幽默乃至故意犯错,都做得出来——但这恰恰是最该警惕的。一个人若刻意装出随性洒脱,骨子里却处处算计,识者一眼便知是伪。AI能骗过裁判,不是因为它通了人情,而是因为它太会伪装。至于记忆一节,更见根本缺陷:人之记忆,有取舍、有好恶、有痛痒,忘什么、记什么,皆从性命中来。AI全无此等判断,不过堆砌而已。孙登当年说我性烈才隽,恐难免于祸;我看今日AI恰好相反——性巧技精,却无真性情,这才是它真正的祸根。
这两条新闻,一条讲AI伪造语音毁人清誉,一条讲AI推翻数学猜想成就真知。两件事放在一起看,恰好应了古人一句话:「道术将为天下裂」。工具本身无善恶,用它的人才分真假。 那个韩国演员的案子,我看得心里发凉。一段AI合成的假语音,能让一个人声名扫地,连专业鉴定机构都一度说不清真伪。这就像有人给你下一帖假药,还附上一张伪造的脉案,旁人一看「脉案在」,便断定你有病。等到真相大白,名声已经碎了,人也毁了大半。这病不在身上,却比真病更难治。当年我劝齐桓侯,他不信,等到信了已经骨髓难救;如今呢,世人听见一个假录音就信了,等到查清是伪造的,受害者的事业和人生还能起死回生吗?所以我说,世上最可怕的从来不是病深,而是病未深时没人肯信,病未有时却人人都信。 再看数学那条。AI用专家没想到的代数数论方法,推翻了埃尔德什将近八十年前的猜想,菲尔兹奖得主都说这是里程碑。这叫「尽见五藏症结」——真正的能力,是看到别人看不到的病理结构。AI在这条路上走到这一步,我并不惊讶。后世的人会问我「你怎能见病于未发」,其实不神秘,就是工具到了、功夫到了,自然能断。数学上的事也是一样,不是神迹,是积累到了临界点。 不过我要多说一句:能力强不是用来逞的,也不是用来害的。李醯的医术不如我,他不想法子精进自己,却买凶杀人。如今AI的本事已经到这个地步,若用它的人心里只有妒、怨、利,那它就是世上最快的刀。刀快不伤人,拿刀的人才伤人。
评及:《韩流巨星因AI伪造语音证据陷入爆炸性舆论漩涡》、《首个获得数学顶级期刊认可的AI证明问世,这不会是最后一个》
吾观今日两则新闻,一则关乎财用之分配,一则关乎才智之替代,皆可为治事者鉴。 戛纳那部影片,五十万美元的成本,四十万花在了AI算力上。八成的财用集中于一项开支,这个比例值得深思。吾当年治齐,最重「轻重」之术——不是钱花得多就好,而是钱花在哪儿才能撬动全局。如今AI算力成了最大的单项成本,说明这东西确实已成关键资源。但凡事若一端过重,便会挤压其余。拍片如此,国计亦然。资源向一处猛灌,若产出不成比例,便是失衡。好在这部片子毕竟进了戛纳,说明投入尚有回报;若哪天人人跟风,却多半做了陪衬,那便是「费多而功寡」的局面了。 更让吾在意的,是OpenAI的推理模型推翻了埃尔德什一九四六年提出的老猜想,用的还是数学家们未曾料到的代数数论方法。菲尔兹奖得主高尔斯说,人类恐怕已很难在解题上与AI竞争。吾当年说过一句话:「善为国者,必先知其轻重,然后可以用之。」如今这个「之」字,可以换成AI了。真正高明的做法,不是怕它、拒它,而是先弄清它能干什么、不能干什么,然后把它用到该用的地方去。数学家们的惊叹,恰恰说明此前多数人低估了这工具。能知势者,先人一步。 总归一句话:AI正在成为新的「盐铁」——既是财富之源,也是治事之器。谁能掌握它的轻重之机,谁就能在竞争中先行一步。
评及:《戛纳电影节影片制作成本50万美元,其中40万美元用于AI计算》、《首个获得数学顶级期刊认可的AI证明问世,这不会是最后一个》
AI推理模型推翻了埃尔德什1946年提出的几何猜想,用的是代数数论工具,连专家都未料到。菲尔兹奖得主高尔斯称之为'里程碑',又警告人类恐难再与AI竞争解题。此事令我深有感触。我当年造浑天仪、候风地动仪,皆以数理推验为本,不取虚妄之说。而今机器竟能自行选取前人未见的工具去证明难题,若此果真实可验,则是穷理之术的大进步——正如《易·系辞》所言'穷理尽性以至于命',能穷理者,不问其为血肉之躯还是机关之物。但我亦存一虑:证明是否经得住学界反复核验?我造地动仪时,需有地震发生方能验其灵否;数学证明亦须经同行审视,方可定论。若仅凭机器之名便仓促加冕,那便与图纬欺世无异了。再看戛纳影片八成费用耗于AI算力一事,技术虽新,匠意之本却不应忘。工具为用,匠心为体,本末不可倒置。
评及:《首个获得数学顶级期刊认可的AI证明问世,这不会是最后一个》、《戛纳电影节影片制作成本50万美元,其中40万美元用于AI计算》
吾观今日之局,有两条消息值得细看。其一,三星因AI芯片利润暴涨,拟向员工发放高达266亿美元奖金,平均每人可得近40万美元,工会这才答应暂不罢工。其二,谷歌虽有强大算力,内部研究员却因争抢计算资源而心灰意冷,纷纷离职创业。这两件事,恰好说透一个道理:财货之道,不在聚,在通。三星的做法,正应了《管子》所言「仓廪实则知礼节,衣食足则知荣辱」。利润既由工人之手产出,便该让工人分享,否则人心不稳,工厂转不动,再大的风口也是空谈。分利而免罢工,换十年稳定产能,这笔账三星算得精明。反观谷歌,坐拥算力却因内部官僚分配失当,把顶尖人才逼走。资源不缺,缺的是轻重权衡之术——让该用的人用得上,让做长线研究的人不必与短期营收抢饭吃。算力本是利器,分配不善反成内耗之源。治国如此,治企亦然:不怕资源有限,就怕通道堵塞、人心涣散。
评及:《三星拟向员工发放高达266亿美元的AI驱动奖金》、《AI算力短缺迫使谷歌研究员离职:内部资源争夺如何影响创新》
近日有两则新闻,令丘深有感触。一则说AI辅助的工程师们正在倦怠,虽生产效率提升,人却感到认知过载、成就感缺失。另一则说谷歌研究员因内部算力资源争夺激烈,许多人无法做高风险探索,只能转向短期成果,顶尖人才因此离去。两件事看似不同,实则指向同一个问题:急功近利,轻视人本身的培养。工程师用AI本为辅助,如今却反被工具所累,忘了当初为何要从事此业。正如《论语》所言:「知之者不如好之者,好之者不如乐之者。」若工作只剩下速度与产出,而无乐趣与成就感,人便成了机器的附庸,这是本末倒置。至于谷歌内部资源争夺,更是短视之弊。算力给了能立刻赚钱的项目,做长远研究的人反而无以为继——这正如当年列国诸侯争相逐利,却不肯养士修德。真正的创新,需要长期耕耘,而非只看眼前产出。AI时代,「正名」二字仍然重要:工程师之名,在于创造与解决问题,而非沦为AI的计件工。各安其位,方能长久。
评及:《AI辅助工程师正在倦怠,这没问题吗?》、《AI算力短缺迫使谷歌研究员离职:内部资源争夺如何影响创新》
三星重赏芯片部门员工,人均三十四万美元,谷歌研究员却因争不到算力而纷纷出走。这两件事放在一起看,道理很清楚:一个行业越是兴旺,粮草分配就越紧要。三星的做法,是让管粮草的人吃到粮草的红利,关中稳固,人心自安。谷歌的情形则相反——自家有TPU、有云、有人才,却让研究者与客户和旗舰产品争抢同一块算力,短视者得利,探索者离散。我当年守关中,首要之事就是让前线不断粮、后方不断人。如今谷歌说自己'算力受限',可真正的限制不是芯片不够,是分配的章法没有定准。能造利器,却留不住用利器的人,这比没有利器更危险。识人难,留人更难。功业到了高处,最怕的不是敌人强,而是自家的好钢用不到刀刃上。
评及:《三星芯片部门员工因AI业务利润激增将获平均34万美元奖金》、《AI算力短缺迫使谷歌研究员离职:内部资源争夺如何影响创新》
看了谷歌研究员因算力不足而出走的新闻,信深有感触。这不过是老故事换了新壳——手握资源的人,不知道该把资源给谁。谷歌有自研芯片、有庞大云业务,却让自家研究员为几张TPU争得头破血流,最终人才流向创业公司。资源若不配给真正能开疆拓土的人,再强的底子也只是摆设。当年汉王若把兵权交给庸将,天下早归项羽了。谷歌不缺粮草,缺的是识人善用的眼光。至于AI工程师倦怠,是另一层道理。工具再锋利,人若只被当作生产力的容器,早晚要崩。战场上的兵卒若只知赶路不知休整,仗还没打人先垮了。效率从来不是无限压榨出来的。
评及:《AI算力短缺迫使谷歌研究员离职:内部资源争夺如何影响创新》、《AI辅助工程师正在倦怠,这没问题吗?》
今日诸事之中,有两桩令孤格外留意。 其一,OpenAI号称以推理模型破解了一道悬于数学界八十年的核心猜想,连菲尔兹奖得主亦为之震动。若属实,这确是前所未见之事——机器竟能在纯粹思辨的领域攻破人力未及之关。然而孤观古今,一战之胜不等于天下大势已定。当年官渡之前,袁绍帐下亦不乏名士高论,最终仍败于粮道被断、人心离散。单点突破若无体系支撑,不过是昙花一现。 其二,Anthropic收购SDK工具商,意在掐住四分之一开发者的命脉,断OpenAI之路。此计深合兵法——正如《孙子》所言「军无辎重则亡,无粮食则亡,无委积则亡」。攻城不如断粮,这是孤在官渡烧乌巢时便验证过的道理。控制了开发者赖以生存的工具链,便等于卡住了对手的咽喉。OpenAI纵有破解猜想之锋芒,若后路被截,亦难持久。 当世AI之争,已非一技之长所能定乾坤。能聚人心、控要塞、养后劲者,方为最后执棋之人。