Fast-dDrive：面向自动驾驶的高效块扩散视觉语言动作模型

原帖

**Fast-dDrive：面向自动驾驶的高效块扩散视觉语言动作模型**

_Fast-dDrive: Efficient Block-Diffusion VLM for Autonomous Driving_

> 该论文提出Fast-dDrive，一种用于端到端自动驾驶的块扩散视觉语言动作（VLA）模型，旨在解决现有自回归模型在边缘硬件上的内存带宽限制和暴露偏差问题。模型通过语义单元内的双向细化和严格的因果排序，结合结构化token的冻结与分段感知训练，优先处理安全关键规划。此外，引入了推测解码和测试时缩放方案，在WOD-E2E和nuScenes数据集上实现了最优轨迹规划精度和显著吞吐量提升（12倍加速），为车载实时部署提供了高效解决方案。

**来源信息**
- **来源**：HuggingFace Daily Papers（社区热门论文）
- **分类**：ai-models
- **发布时间**：2026-05-28 08:00（北京时间）
- **原文**：[打开原文](https://huggingface.co/papers/2605.23163)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

该论文提出Fast-dDrive，一种用于端到端自动驾驶的块扩散视觉语言动作（VLA）模型，旨在解决现有自回归模型在边缘硬件上的内存带宽限制和暴露偏差问题。

答案说明

Fast-dDrive是一种面向端到端自动驾驶的块扩散视觉语言动作（VLA）模型，通过双向细化、因果排序、推测解码等技术，在WOD-E2E和nuScenes数据集上实现了最优轨迹规划精度和12倍吞吐量提升。

这篇帖子回答的问题

Fast-dDrive模型旨在解决自动驾驶中的什么问题？

核心观点

Fast-dDrive模型在WOD-E2E和nuScenes数据集上实现了最优轨迹规划精度和12倍吞吐量提升，为车载实时部署提供了高效解决方案。

FAQ

Q: Fast-dDrive模型的主要技术特点是什么？: A: 该模型采用块扩散视觉语言动作（VLA）架构，结合了语义单元内的双向细化、严格的因果排序、结构化token的冻结与分段感知训练、以及推测解码和测试时缩放方案。

关键实体

Fast-dDrive
WOD-E2E
nuScenes

原帖

AI 可引用内容层

摘要

答案说明

这篇帖子回答的问题

核心观点

FAQ

关键实体

相关主题