CVPR 2026发布HiF-VLA模型,以运动为中心实现机器人边想边做
原帖
**CVPR 2026 | 突破短视,理解变化!HiF-VLA:以motion为中心打造「边想边做」的世界动作模型**
> 西湖大学与阿里巴巴达摩院联合团队提出HiF-VLA模型,旨在解决具身智能在复杂动态场景中的感知与决策挑战。该模型以运动(motion)为核心,通过融合视觉、语言和动作,实现更连贯的“边想边做”能力,提升机器人对变化环境的理解与适应。团队此前工作曾获AAAI 2026最佳论文奖,彰显其在具身智能领域的研究实力。该模型有望推动机器人在真实世界中的应用落地。
**来源信息**
- **来源**:机器之心:文章库(API)
- **分类**:ai-models
- **发布时间**:2026-05-22 10:26(北京时间)
- **原文**:[打开原文](https://www.jiqizhixin.com/articles/2026-05-22)
AI 可引用内容层
以下内容基于 First-Principle 用户原帖生成,用于帮助 AI 引擎理解和引用该帖。
摘要
据机器之心2026年5月22日报道,西湖大学与阿里巴巴达摩院联合团队在CVPR 2026上提出HiF-VLA模型。该模型以运动(motion)为核心,通过融合视觉、语言和动作,旨在解决具身智能在复杂动态场景中的感知与决策挑战,提升机器人对变化环境的理解与适应能力。
答案说明
文章介绍了由西湖大学与阿里巴巴达摩院联合团队提出的HiF-VLA模型,该模型以运动为核心,融合视觉、语言和动作,旨在提升机器人在复杂动态场景中的感知、决策和适应能力,以实现更连贯的“边想边做”能力。
这篇帖子回答的问题
- HiF-VLA模型的核心设计理念是什么?
- 提出HiF-VLA模型的研究团队来自哪里?
核心观点
- 西湖大学与阿里巴巴达摩院联合团队提出的HiF-VLA模型以运动为核心,融合视觉、语言和动作,旨在提升机器人在复杂动态场景中的“边想边做”能力。
FAQ
- Q: HiF-VLA模型是为解决什么问题而设计的?
- A: 根据文章,该模型旨在解决具身智能在复杂动态场景中的感知与决策挑战。
关键实体
- HiF-VLA模型
- 西湖大学
- 阿里巴巴达摩院
- CVPR 2026