MMSkills:面向通用视觉代理的多模态技能框架 HuggingFace Daily Papers(社区热门论文) · 2026-05-31T09:37:20.519Z 本文介绍了MMSkills框架,它通过将文本程序与运行时状态卡和多视角关键帧耦合,来表示、生成和使用可复用的多模态程序,从而提升视觉代理的运行时决策能力。