LLM Scraper

开源MCP 生态 › 浏览器自动化⭐ 6.9k

用 LLM 将任何网页转换为结构化数据。基于 Playwright/Puppeteer 实现浏览器自动化，配合 GPT-4、Llama 等模型提取网页信息

🎯适用场景：网页数据采集、竞品监控、内容聚合

#网页抓取#LLM#结构化数据#Playwright#自动化

📥 收录于 2026/6/8

访问工具

📊 仓库数据

Stars6,884

Forks453

语言TypeScript

更新2026/7/24

✅ 优点

•LLM 驱动的语义级提取
•支持多种 LLM 后端
•TypeScript 生态友好
•6.8K stars

⚠️ 限制

•需要浏览器环境
•LLM API 调用成本
•大规模抓取速度受限

🔗 相关工具

Agent Browser

开源⭐ 39k↑+37

github.com/vercel-labs/agent-browser

Vercel 出品的 AI Agent 浏览器自动化 CLI 工具。允许 AI Agent 直接控制浏览器执行复杂任务——网页浏览、表单填写、数据抓取、SPA 应用交互等。30,300+ stars，基于 Playwright 构建，提供简洁的命令行接口让 AI Agent 以人类方式操作浏览器。与 browser-use 相比，agent-browser 更专注于 AI Agent 场景的集成，提供更流畅的 Agent-浏览器交互体验。

🎯网页自动化与数据采集

#开源#浏览器自动化#命令行#Playwright+1

Crawlee

开源⭐ 25k↑+18

github.com/apify/crawlee

Node.js 网页爬取和浏览器自动化库，支持 Puppeteer、Playwright、Cheerio，专为 AI、LLM、RAG 提取数据设计

🎯为 AI 应用和 RAG 系统爬取网页数据，自动化数据采集

#爬虫#自动化#网页抓取#nodejs+1

MCP Playwright

开源⭐ 5.6k↑+1

github.com/executeautomation/mcp-playwright

Playwright 浏览器自动化的 MCP 实现，将成熟的 Playwright 测试框架能力通过标准 MCP 协议暴露给 AI Agent。支持网页抓取、表单自动化、E2E 测试场景、SPA 应用交互等完整浏览器自动化能力。5,400+ GitHub Star，相比原生浏览器 MCP 方案，Playwright 的跨浏览器支持（Chromium/Firefox/WebKit）和成熟 API 使其在复杂场景下更可靠

🎯MCP 工具协议集成、网页自动化与数据采集

#Playwright#浏览器自动化#网页抓取#5.4k stars