MMSkills：面向通用视觉代理的多模态技能框架

原帖

**MMSkills：面向通用视觉代理的多模态技能**

_MMSkills: Towards Multimodal Skills for General Visual Agents_

> 这篇论文提出了一个名为MMSkills的框架，用于表示、生成和使用可复用的多模态程序，以实现运行时视觉决策。该框架旨在解决视觉代理在重用技能时面临的挑战，即程序性知识本质上是多模态的。MMSkills将文本程序与运行时状态卡和多视角关键帧耦合在一起。论文还开发了一个将公开轨迹转化为可复用技能的生成器，并引入了一个分支加载的多模态技能代理，用于在推理时利用多模态证据。实验表明，MMSkills能持续提升前沿和较小规模多模态代理的能力。

**来源信息**
- **来源**：HuggingFace Daily Papers（社区热门论文）
- **分类**：论文
- **发布时间**：2026-05-18 08:00（北京时间）
- **原文**：[打开原文](https://huggingface.co/papers/2605.13527)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

本文介绍了MMSkills框架，它通过将文本程序与运行时状态卡和多视角关键帧耦合，来表示、生成和使用可复用的多模态程序，从而提升视觉代理的运行时决策能力。

答案说明

MMSkills是一个用于视觉代理的框架，它通过生成可复用的多模态技能程序，解决了视觉代理在技能重用时面临的多模态知识挑战，并能持续提升前沿和较小规模多模态代理的能力。

这篇帖子回答的问题

MMSkills框架的核心目标是什么？
MMSkills如何帮助视觉代理提升决策能力？

核心观点

MMSkills框架通过将文本程序与运行时状态卡和多视角关键帧耦合，来解决视觉代理在重用程序性知识时面临的多模态挑战。
论文实验表明，MMSkills能持续提升前沿和较小规模多模态代理的能力。

FAQ

Q: MMSkills是什么？: A: MMSkills是一个框架，用于表示、生成和使用可复用的多模态程序，以实现运行时视觉决策。

关键实体

MMSkills
通用视觉代理