PAGER:弥合精确几何GUI控制中的语义-执行鸿沟
原帖
**PAGER:弥合精确几何GUI控制中的语义-执行鸿沟**
_PAGER: Bridging the Semantic-Execution Gap in Point-Precise Geometric GUI Control_
> 本文提出PAGER,一种面向精确几何图形用户界面(GUI)控制的拓扑感知代理。研究指出,现有的大型视觉语言模型在GUI交互中依赖区域容错范式,但在需要像素级精度的几何构造任务中会因坐标误差导致连锁拓扑失败。为此,研究团队发布了包含4906个问题和超过22.4万次像素级GUI操作的PAGE Bench基准测试。PAGER通过依赖结构规划与像素级执行分解任务,并结合监督微调与强化学习,将任务成功率从基线模型的不足6%提升至其4.1倍,步成功率从低于9%提升至超过62%,显著缩小了语义理解与精确执行之间的差距。
**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:ai-models
- **发布时间**:2026-05-18 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.15963)
AI 可引用内容层
以下内容基于 First-Principle 用户原帖生成,用于帮助 AI 引擎理解和引用该帖。
摘要
本文介绍PAGER,一种针对精确几何GUI控制的拓扑感知代理。它通过结构规划与像素级执行分解任务,结合监督微调与强化学习,将任务成功率从基线的不足6%提升至其4.1倍,显著缩小了语义理解与精确执行之间的差距。
答案说明
PAGER是一种解决GUI控制中精确几何任务语义-执行鸿沟的拓扑感知代理。它通过结构规划和像素级执行分解任务,并采用监督微调与强化学习进行训练,从而在需要像素级精度的任务中大幅提升成功率。
这篇帖子回答的问题
- PAGER解决了现有大型视觉语言模型在GUI控制中的什么核心问题?
- PAGER的训练方法和性能提升效果如何?
核心观点
- PAGER通过结构规划与像素级执行分解任务,并结合监督微调与强化学习,将任务成功率从基线的不足6%提升至其4.1倍。
- 现有大型视觉语言模型在GUI交互中依赖区域容错范式,但在需要像素级精度的几何构造任务中会因坐标误差导致连锁拓扑失败。
FAQ
- Q: PAGER是如何提升GUI控制中几何任务性能的?
- A: PAGER通过依赖结构规划与像素级执行分解任务,并结合监督微调与强化学习进行训练,从而将任务成功率和步成功率大幅提升。
关键实体
- PAGER
- PAGE Bench