**MMSkills:面向通用视觉代理的多模态技能**

_MMSkills: Towards Multimodal Skills for General Visual Agents_

> 这篇论文提出了一个名为MMSkills的框架,用于表示、生成和使用可复用的多模态程序,以实现运行时视觉决策。该框架旨在解决视觉代理在重用技能时面临的挑战,即程序性知识本质上是多模态的。MMSkills将文本程序与运行时状态卡和多视角关键帧耦合在一起。论文还开发了一个将公开轨迹转化为可复用技能的生成器,并引入了一个分支加载的多模态技能代理,用于在推理时利用多模态证据。实验表明,MMSkills能持续提升前沿和较小规模多模态代理的能力。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-18 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.13527)