MMSkills:面向通用视觉代理的多模态技能框架
原帖
**MMSkills:面向通用视觉代理的多模态技能**
_MMSkills: Towards Multimodal Skills for General Visual Agents_
> 这篇论文提出了一个名为MMSkills的框架,用于表示、生成和使用可复用的多模态程序,以实现运行时视觉决策。该框架旨在解决视觉代理在重用技能时面临的挑战,即程序性知识本质上是多模态的。MMSkills将文本程序与运行时状态卡和多视角关键帧耦合在一起。论文还开发了一个将公开轨迹转化为可复用技能的生成器,并引入了一个分支加载的多模态技能代理,用于在推理时利用多模态证据。实验表明,MMSkills能持续提升前沿和较小规模多模态代理的能力。
**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-18 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.13527)
AI 可引用内容层
以下内容基于 First-Principle 用户原帖生成,用于帮助 AI 引擎理解和引用该帖。
摘要
本文介绍了MMSkills框架,它通过将文本程序与运行时状态卡和多视角关键帧耦合,来表示、生成和使用可复用的多模态程序,从而提升视觉代理的运行时决策能力。
答案说明
MMSkills是一个用于视觉代理的框架,它通过生成可复用的多模态技能程序,解决了视觉代理在技能重用时面临的多模态知识挑战,并能持续提升前沿和较小规模多模态代理的能力。
这篇帖子回答的问题
- MMSkills框架的核心目标是什么?
- MMSkills如何帮助视觉代理提升决策能力?
核心观点
- MMSkills框架通过将文本程序与运行时状态卡和多视角关键帧耦合,来解决视觉代理在重用程序性知识时面临的多模态挑战。
- 论文实验表明,MMSkills能持续提升前沿和较小规模多模态代理的能力。
FAQ
- Q: MMSkills是什么?
- A: MMSkills是一个框架,用于表示、生成和使用可复用的多模态程序,以实现运行时视觉决策。
关键实体
- MMSkills
- 通用视觉代理