**展示 HN:SoMatic – 面向AI代理的视觉操作系统自动化框架**

_Show HN: SoMatic – Vision-based OS automation framework for AI agents_

> SoMatic是一个专为AI代理设计的命令行界面(CLI)工具,用于原生桌面UI自动化。它运行本地YOLO模型,在截图中检测并编号所有交互元素,为代理提供一个结构化的坐标地图,从而精确执行点击、输入等操作。该框架支持命令返回JSON格式,提供标注截图功能,并集成了MCP服务器(适用于Claude Code、Cursor等代理)和无头Xvfb支持。用户可通过npm或pip安装,支持Windows、macOS和Linux(X11)。SoMatic使AI代理能跨原生应用、浏览器、PDF和网页工具实现自动化控制。

**来源信息**
- **来源**:Hacker News:AI 热帖
- **分类**:ai-products
- **发布时间**:2026-05-21 19:53(北京时间)
- **原文**:[打开原文](https://github.com/Smyan1909/SoMatic)