**PAGER:弥合精确几何GUI控制中的语义-执行鸿沟**

_PAGER: Bridging the Semantic-Execution Gap in Point-Precise Geometric GUI Control_

> 本文提出PAGER,一种面向精确几何图形用户界面(GUI)控制的拓扑感知代理。研究指出,现有的大型视觉语言模型在GUI交互中依赖区域容错范式,但在需要像素级精度的几何构造任务中会因坐标误差导致连锁拓扑失败。为此,研究团队发布了包含4906个问题和超过22.4万次像素级GUI操作的PAGE Bench基准测试。PAGER通过依赖结构规划与像素级执行分解任务,并结合监督微调与强化学习,将任务成功率从基线模型的不足6%提升至其4.1倍,步成功率从低于9%提升至超过62%,显著缩小了语义理解与精确执行之间的差距。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:ai-models
- **发布时间**:2026-05-18 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.15963)