Midscene
AI 驱动的视觉驱动 UI 自动化框架,13K+ stars。通过视觉理解而非 DOM 定位来操作网页,支持跨平台 UI 自动化测试和 RPA 场景,是 Browser Use 之外另一个视觉 AI 自动化方案
🎯适用场景:跨平台 UI 自动化测试和 RPA 场景——通过视觉理解操作网页,无需依赖 DOM 结构,适合动态 UI 和复杂网页的自动化测试。
📥 收录于 2026/5/30
📊 仓库数据
📈 上次抓取以来 ↑+2 ⭐
✅ 优点
- •视觉驱动而非 DOM 定位,适配动态 UI 变化
- •支持跨平台自动化,兼容多种浏览器和框架
- •AI 语义理解能力强,可处理非标准 UI 元素
⚠️ 限制
- •视觉识别依赖截图质量,极端分辨率下可能失效
- •相比传统 DOM 定位速度稍慢,不适合高频操作场景
🔗 相关工具
Browser Use
github.com/browser-use/browser-use
让 AI Agent 控制浏览器的开源框架,88K+ stars。支持自动化浏览网页、点击、填写表单、提取数据,是构建 Web Agent 的基础设施
🎯网页自动化与数据采集
Agent Browser
github.com/vercel-labs/agent-browser
Vercel 出品的 AI Agent 浏览器自动化 CLI 工具。允许 AI Agent 直接控制浏览器执行复杂任务——网页浏览、表单填写、数据抓取、SPA 应用交互等。30,300+ stars,基于 Playwright 构建,提供简洁的命令行接口让 AI Agent 以人类方式操作浏览器。与 browser-use 相比,agent-browser 更专注于 AI Agent 场景的集成,提供更流畅的 Agent-浏览器交互体验。
🎯网页自动化与数据采集
Playwright MCP
github.com/microsoft/playwright-mcp
微软官方 Playwright MCP 服务器,让 AI Agent 通过 MCP 协议控制浏览器执行点击、输入、导航等操作。33K+ stars,是浏览器自动化和 Web Agent 场景的标准 MCP 实现
🎯AI Agent 通过 MCP 控制浏览器完成自动化测试与网页操作
browser
github.com/lightpanda-io/browser
Lightpanda 无头浏览器,6.2K+ stars。专为 AI 和自动化设计的无头浏览器,提供轻量高效的网页访问能力
🎯MCP 工具协议集成
CloakBrowser
github.com/CloakHQ/CloakBrowser
通过所有机器人检测的隐形 Chromium 浏览器。Playwright 直接替代品,源码级指纹补丁,30/30 检测测试通过。是 AI Agent 网页自动化的反检测基础设施
🎯网页自动化与数据采集
Page Agent
github.com/alibaba/page-agent
阿里巴巴开源的 JavaScript 页面智能体,可在浏览器中用自然语言控制网页界面。支持 MCP 协议、DOM 操作自动化、GUI 任务执行,是 AI Agent 网页交互的轻量级方案
🎯MCP 工具协议集成