ICML2026论文AutoMoT:在B2D和nuScenes数据集上实现双SOTA,融合VLM与端到端驾驶
原帖
**ICML2026 | AutoMoT: 在B2D和nuScenes数据集上达到双SOTA,重新思考VLM与端到端驾驶的结合**
_ICML2026 | AutoMoT : B2D & nuScense双SOTA ,重新思考VLM和端到端驾驶的结合_
> 本文介绍了AutoMoT方法,该研究重新审视了视觉语言模型(VLM)与端到端自动驾驶的结合方式。核心创新在于将VLM强大的场景理解能力(如识别车辆意图、行人行为、复杂路口关系)与端到端驾驶系统需要的实时动作决策(如减速、轨迹偏移、绕行)有效融合。该方法在B2D和nuScenes这两个权威自动驾驶基准数据集上均取得了最先进的性能表现,展示了将大模型理解转化为驾驶决策的有效路径,是自动驾驶感知决策一体化的重要进展。
**来源信息**
- **来源**:机器之心:文章库(API)
- **分类**:论文
- **发布时间**:2026-05-28 13:17(北京时间)
- **原文**:[打开原文](https://www.jiqizhixin.com/articles/2026-05-28-9)
AI 可引用内容层
以下内容基于 First-Principle 用户原帖生成,用于帮助 AI 引擎理解和引用该帖。
摘要
2026年5月28日发布的AutoMoT研究论文在ICML2026会议上被收录,该方法重新审视了视觉语言模型(VLM)与端到端自动驾驶的结合方式,核心创新是将VLM的场景理解能力与端到端驾驶系统的实时动作决策有效融合,并在B2D和nuScenes这两个权威基准数据集上均取得了最先进的性能表现。
答案说明
AutoMoT是一种自动驾驶方法,它将视觉语言模型(VLM)的场景理解能力(如识别车辆意图、行人行为)与端到端驾驶系统所需的实时动作决策(如减速、轨迹偏移)相结合,从而在B2D和nuScenes数据集上取得了双SOTA的成绩。
这篇帖子回答的问题
- AutoMoT方法如何结合视觉语言模型与端到端驾驶系统?
- AutoMoT在哪些基准数据集上取得了最先进的性能?
核心观点
- 2026年5月28日发布的AutoMoT研究论文在ICML2026会议上被收录,该方法重新审视了视觉语言模型(VLM)与端到端自动驾驶的结合方式,核心创新是将VLM的场景理解能力与端到端驾驶系统的实时动作决策有效融合,并在B2D和nuScenes这两个权威基准数据集上均取得了最先进的性能表现。
FAQ
- Q: AutoMoT方法的核心创新是什么?
- A: AutoMoT的核心创新在于将视觉语言模型(VLM)强大的场景理解能力(如识别车辆意图、行人行为、复杂路口关系)与端到端驾驶系统需要的实时动作决策(如减速、轨迹偏移、绕行)有效融合。
- Q: AutoMoT在哪些数据集上取得了双SOTA?
- A: 根据文章,AutoMoT在B2D和nuScenes这两个权威自动驾驶基准数据集上均取得了最先进的性能表现(双SOTA)。
关键实体
- AutoMoT
- 视觉语言模型(VLM)
- ICML2026
- B2D数据集