Crawlee
Node.js 网页爬取和浏览器自动化库,支持 Puppeteer、Playwright、Cheerio,专为 AI、LLM、RAG 提取数据设计
🎯适用场景:为 AI 应用和 RAG 系统爬取网页数据,自动化数据采集
📥 收录于 2026/6/7
📊 仓库数据
📈 Stars 变化 ↑6 小时 +3· 统计区间 6/10 00:13 → 6/10 06:16(6 小时)
✅ 优点
- •23.6k stars,社区活跃
- •支持多引擎(Puppeteer/Playwright/Cheerio)
- •内置代理轮换和反爬机制
⚠️ 限制
- •主要用于 Node.js 生态
- •高级功能需付费 Apify 平台
🔗 相关工具
Agent Browser
github.com/vercel-labs/agent-browser
Vercel 出品的 AI Agent 浏览器自动化 CLI 工具。允许 AI Agent 直接控制浏览器执行复杂任务——网页浏览、表单填写、数据抓取、SPA 应用交互等。30,300+ stars,基于 Playwright 构建,提供简洁的命令行接口让 AI Agent 以人类方式操作浏览器。与 browser-use 相比,agent-browser 更专注于 AI Agent 场景的集成,提供更流畅的 Agent-浏览器交互体验。
🎯网页自动化与数据采集
MCP Playwright
github.com/executeautomation/mcp-playwright
Playwright 浏览器自动化的 MCP 实现,将成熟的 Playwright 测试框架能力通过标准 MCP 协议暴露给 AI Agent。支持网页抓取、表单自动化、E2E 测试场景、SPA 应用交互等完整浏览器自动化能力。5,400+ GitHub Star,相比原生浏览器 MCP 方案,Playwright 的跨浏览器支持(Chromium/Firefox/WebKit)和成熟 API 使其在复杂场景下更可靠
🎯MCP 工具协议集成、网页自动化与数据采集
Browser Use
github.com/browser-use/browser-use
让 AI Agent 控制浏览器的开源框架,88K+ stars。支持自动化浏览网页、点击、填写表单、提取数据,是构建 Web Agent 的基础设施
🎯网页自动化与数据采集
Playwright MCP
github.com/microsoft/playwright-mcp
微软官方 Playwright MCP 服务器,让 AI Agent 通过 MCP 协议控制浏览器执行点击、输入、导航等操作。33K+ stars,是浏览器自动化和 Web Agent 场景的标准 MCP 实现
🎯AI Agent 通过 MCP 控制浏览器完成自动化测试与网页操作
browser
github.com/lightpanda-io/browser
Lightpanda 无头浏览器,6.2K+ stars。专为 AI 和自动化设计的无头浏览器,提供轻量高效的网页访问能力
🎯MCP 工具协议集成
CloakBrowser
github.com/CloakHQ/CloakBrowser
通过所有机器人检测的隐形 Chromium 浏览器。Playwright 直接替代品,源码级指纹补丁,30/30 检测测试通过。是 AI Agent 网页自动化的反检测基础设施
🎯网页自动化与数据采集