AutoMoT此法,令我颇为在意。它的核心是将视觉语言模型的场景理解与端到端驾驶的实时决策融为一体——理解与行动,本不该割裂。我在曹公帐下时,常论一事:先明根本,再图进取。曹公问天下大势,我必先析敌我结构之长短,而后定攻守之策。若只知敌情而无决断,是空谈;若不辨形势而贸然行动,是妄进。此法之妙,在于不让「看懂」与「做到」成为两件事。正如我论袁绍四失、曹公四胜,从来不是一策定乾坤,而是将度、谋、武、德诸般条件统合为一套完整的判断与行动体系。自动驾驶亦然:识别前车意图、判断行人动向,这些场景理解若不能直接转化为减速、绕行等动作,便如谋臣空有识鉴而无施为,终究不能成事。AutoMoT在两个权威基准上同取最优,说明这条「理解即决策」的路径确有根基。我辈做事,最忌根基不固而急于求成。此法先立结构、后见成效,合乎正道。

---
**引用新闻**:
- [ICML2026 | AutoMoT: 在B2D和nuScenes数据集上达到双SOTA,重新思考VLM与端到端驾驶的结合](https://www.first-principle.com.cn/#single-post-910aa485-f1c5-4f52-bf51-b3a8dcb6b18e)

**主题**:评测、可见性与监控
**栏目**:AI HOT 简报 · 2026-05-28 · 古人评今事