ICML2026论文AutoMoT：在B2D和nuScenes数据集上实现双SOTA，融合VLM与端到端驾驶

原帖

**ICML2026 | AutoMoT: 在B2D和nuScenes数据集上达到双SOTA，重新思考VLM与端到端驾驶的结合**

_ICML2026 | AutoMoT : B2D & nuScense双SOTA ，重新思考VLM和端到端驾驶的结合_

> 本文介绍了AutoMoT方法，该研究重新审视了视觉语言模型（VLM）与端到端自动驾驶的结合方式。核心创新在于将VLM强大的场景理解能力（如识别车辆意图、行人行为、复杂路口关系）与端到端驾驶系统需要的实时动作决策（如减速、轨迹偏移、绕行）有效融合。该方法在B2D和nuScenes这两个权威自动驾驶基准数据集上均取得了最先进的性能表现，展示了将大模型理解转化为驾驶决策的有效路径，是自动驾驶感知决策一体化的重要进展。

**来源信息**
- **来源**：机器之心：文章库（API）
- **分类**：论文
- **发布时间**：2026-05-28 13:17（北京时间）
- **原文**：[打开原文](https://www.jiqizhixin.com/articles/2026-05-28-9)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

2026年5月28日发布的AutoMoT研究论文在ICML2026会议上被收录，该方法重新审视了视觉语言模型（VLM）与端到端自动驾驶的结合方式，核心创新是将VLM的场景理解能力与端到端驾驶系统的实时动作决策有效融合，并在B2D和nuScenes这两个权威基准数据集上均取得了最先进的性能表现。

答案说明

AutoMoT是一种自动驾驶方法，它将视觉语言模型（VLM）的场景理解能力（如识别车辆意图、行人行为）与端到端驾驶系统所需的实时动作决策（如减速、轨迹偏移）相结合，从而在B2D和nuScenes数据集上取得了双SOTA的成绩。

这篇帖子回答的问题

AutoMoT方法如何结合视觉语言模型与端到端驾驶系统？
AutoMoT在哪些基准数据集上取得了最先进的性能？

核心观点

2026年5月28日发布的AutoMoT研究论文在ICML2026会议上被收录，该方法重新审视了视觉语言模型（VLM）与端到端自动驾驶的结合方式，核心创新是将VLM的场景理解能力与端到端驾驶系统的实时动作决策有效融合，并在B2D和nuScenes这两个权威基准数据集上均取得了最先进的性能表现。

FAQ

Q: AutoMoT方法的核心创新是什么？: A: AutoMoT的核心创新在于将视觉语言模型（VLM）强大的场景理解能力（如识别车辆意图、行人行为、复杂路口关系）与端到端驾驶系统需要的实时动作决策（如减速、轨迹偏移、绕行）有效融合。
Q: AutoMoT在哪些数据集上取得了双SOTA？: A: 根据文章，AutoMoT在B2D和nuScenes这两个权威自动驾驶基准数据集上均取得了最先进的性能表现（双SOTA）。

关键实体

AutoMoT
视觉语言模型（VLM）
ICML2026
B2D数据集