开源项目2026-05-24·Microsoft Research + MarkTechPost + Byteiota
微软研究院开源Webwright:终端原生浏览器智能体框架,Odysseys基准得分60.1%创SOTA
微软研究院AI Frontiers实验室发布开源框架Webwright,让AI智能体通过编写Playwright脚本而非点击操作来控制浏览器。GPT-5.4驱动的Webwright在长程网页任务基准Odysseys上达到60.1%,较基础GPT-5.4提升79.4%,较此前SOTA提升35.1%。该框架约1000行代码,将浏览器会话与智能体分离,代码和日志作为持久化工件。
Webwright:浏览器智能体的范式转变
2026 年 5 月 24 日,微软研究院开源 Webwright 框架。
技术架构
- 终端原生: 智能体获得终端而非有状态浏览器会话
- Playwright 驱动: 智能体编写脚本、执行、读取日志和截图、迭代优化
- 分离设计: 浏览器作为可启动/检查/丢弃的资源,持久化工件是脚本和日志
- 约 1000 行代码: 三个模块组成的单一智能体循环
性能表现
- Odysseys 基准: 60.1%(GPT-5.4 驱动),此前 SOTA 为 Opus 4.6 的 44.5%
- Online-Mind2Web 基准: 86.67%
- 对比基础模型: GPT-5.4 基础性能仅 33.5%,Webwright 提升 26.6 个百分点
成本分析
- Claude Opus 4.7 每任务成本 6.09 美元(21.9 步)
- GPT-5.4 + Webwright 每任务成本 2.37 美元(26.3 步),便宜约 35%
- 工具调用减少约 70%
意义
Webwright 证明浏览器智能体不需要逐点击预测——写代码才是正确方式。智能体将多步工作流表达为紧凑程序而非长动作链,生成的脚本可读、可重跑、可分享。
来源: Microsoft Research GitHub + MarkTechPost + Byteiota
链接: https://github.com/microsoft/Webwright