CVPR 2026发布HiF-VLA模型，以运动为中心实现机器人边想边做

原帖

**CVPR 2026 | 突破短视，理解变化！HiF-VLA：以motion为中心打造「边想边做」的世界动作模型**

> 西湖大学与阿里巴巴达摩院联合团队提出HiF-VLA模型，旨在解决具身智能在复杂动态场景中的感知与决策挑战。该模型以运动（motion）为核心，通过融合视觉、语言和动作，实现更连贯的“边想边做”能力，提升机器人对变化环境的理解与适应。团队此前工作曾获AAAI 2026最佳论文奖，彰显其在具身智能领域的研究实力。该模型有望推动机器人在真实世界中的应用落地。

**来源信息**
- **来源**：机器之心：文章库（API）
- **分类**：ai-models
- **发布时间**：2026-05-22 10:26（北京时间）
- **原文**：[打开原文](https://www.jiqizhixin.com/articles/2026-05-22)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

据机器之心2026年5月22日报道，西湖大学与阿里巴巴达摩院联合团队在CVPR 2026上提出HiF-VLA模型。该模型以运动（motion）为核心，通过融合视觉、语言和动作，旨在解决具身智能在复杂动态场景中的感知与决策挑战，提升机器人对变化环境的理解与适应能力。

答案说明

文章介绍了由西湖大学与阿里巴巴达摩院联合团队提出的HiF-VLA模型，该模型以运动为核心，融合视觉、语言和动作，旨在提升机器人在复杂动态场景中的感知、决策和适应能力，以实现更连贯的“边想边做”能力。

这篇帖子回答的问题

HiF-VLA模型的核心设计理念是什么？
提出HiF-VLA模型的研究团队来自哪里？

核心观点

西湖大学与阿里巴巴达摩院联合团队提出的HiF-VLA模型以运动为核心，融合视觉、语言和动作，旨在提升机器人在复杂动态场景中的“边想边做”能力。

FAQ

Q: HiF-VLA模型是为解决什么问题而设计的？: A: 根据文章，该模型旨在解决具身智能在复杂动态场景中的感知与决策挑战。

关键实体

HiF-VLA模型
西湖大学
阿里巴巴达摩院
CVPR 2026