微软开源网页智能体框架Webwright：约1000行代码，GPT-5.4性能显著提升

原帖

**微软开源网页智能体框架Webwright：约1000行代码实现，显著提升GPT-5.4性能**

_约 1000 行代码搭起网页 AI 智能体：微软 Webwright 让 GPT-5.4 跑分提升 81%_

> 微软研究院开源了网页智能体框架Webwright，该框架仅约1000行代码，通过让AI模型在终端中编写Playwright代码、执行shell命令、检查日志和截图，并迭代修正，来自动化完成复杂网页任务。与传统的基于截图或DOM状态预测动作的方法不同，Webwright采用代码方式，更适合处理多步任务。它解决了模型过早宣告完成和上下文膨胀两个工程问题。在基准测试中，结合GPT-5.4模型，Webwright在Online-Mind2Web上准确率达86.67%，在Odysseys长链路任务上比基础GPT-5.4提升了约81%，表现突出。

**来源信息**
- **来源**：IT之家（RSS）
- **分类**：ai-products
- **发布时间**：2026-05-26 12:03（北京时间）
- **原文**：[打开原文](https://www.ithome.com/0/955/251.htm)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

微软研究院开源了网页智能体框架Webwright。该框架仅约1000行代码，采用代码生成与迭代修正的方式，解决了模型过早宣告完成和上下文膨胀两个工程问题。在基准测试中，结合GPT-5.4模型，Webwright在Online-Mind2Web上准确率达86.67%，在Odysseys长链路任务上比基础GPT-5.4提升了约81%。

答案说明

微软开源的网页智能体框架Webwright是一个约1000行代码的框架。它通过让AI模型在终端中编写Playwright代码、执行命令、检查日志截图并迭代修正来完成网页任务，解决了两个关键工程问题。结合GPT-5.4模型，在基准测试中表现突出。

这篇帖子回答的问题

微软开源的网页智能体框架Webwright是如何工作的？
Webwright框架在哪些基准测试中表现如何？

核心观点

Webwright框架采用代码生成与迭代修正的方法，解决了传统方法中模型过早宣告完成和上下文膨胀两个关键工程问题。
结合GPT-5.4模型，Webwright在Online-Mind2Web和Odysseys基准测试中均取得了显著性能提升。

FAQ

Q: Webwright框架解决了哪些传统方法的问题？: A: Webwright采用代码生成与迭代修正的方式，解决了模型过早宣告完成和上下文膨胀两个工程问题。
Q: Webwright框架的代码规模有多大？: A: 该框架仅约1000行代码。

关键实体

微软研究院
Webwright
GPT-5.4
Online-Mind2Web