**IntentVLA:面向混叠机器人操作的短期意图建模**

_IntentVLA: Short-Horizon Intent Modeling for Aliased Robot Manipulation_

> 该论文提出了一种名为IntentVLA的历史条件化视觉-语言-动作(VLA)框架,用于解决机器人模仿学习中因多模态数据(即相似的视觉语言观察可能对应不同动作序列)导致的决策不稳定问题。该方法通过编码近期视觉观察来生成紧凑的短期意图表示,以此作为动作生成的条件,从而提升执行的稳定性。同时,论文还提出了一个名为AliasBench的12任务基准测试,专门用于评估模型在处理短期观察模糊性方面的能力。实验表明,IntentVLA在多个基准测试中优于现有的VLA基线模型。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-15 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.14712)