ScrapeGraph AI
基于 AI 的 Python 智能爬虫——利用大语言模型自动从网页、文档等来源提取结构化数据,无需手动编写解析规则。
🎯适用场景:智能数据采集——自动从网页和文档中提取结构化数据,适合需要灵活抓取非结构化信息的场景
📥 收录于 2026/5/28
📊 仓库数据
✅ 优点
- •26K+ stars 头部爬虫项目
- •LLM 驱动自适应解析
- •无需手动写 XPath/CSS 选择器
- •开源免费
⚠️ 限制
- •依赖 LLM API 调用有费用
- •复杂页面提取准确率有波动
- •Python 环境配置
🔗 相关工具
Context7
github.com/upstash/context7
LLM 文档上下文引擎,53,227+ stars。自动获取和整理最新文档上下文,为 LLM 提供精确的技术参考信息,减少幻觉并提高回答质量
🎯知识库问答与 RAG 检索
Google LangExtract
github.com/google/langextract
Google 开源的结构化信息提取库,使用 LLM 从非结构化文本中提取结构化信息,支持精确溯源和交互式可视化,36K+ stars
🎯从文档中提取结构化数据
MarkItDown
github.com/microsoft/markitdown
微软开源的通用文件转 Markdown 工具,支持 PDF、Word、PPT、Excel、HTML、音频、图片 OCR 等数十种格式转换,专为 LLM 和 RAG 数据预处理设计,插件系统可扩展,MIT 协议
🎯多模态内容理解与生成
Firecrawl
github.com/firecrawl/firecrawl
AI 友好的网页抓取 API,支持 URL → Markdown/结构化数据,110K+ stars。专为 LLM 应用设计,自动处理 JS 渲染、分页、反爬,是 RAG 系统的理想数据源
🎯网页自动化与数据采集
RAGFlow
github.com/infiniflow/ragflow
开源 RAG 引擎,78,566+ stars。深度融合检索与 LLM 能力,支持 PDF/Word/PPT 等多格式文档解析、智能分块、混合检索和引用溯源,是企业知识库问答的优选方案
🎯企业知识库问答与 RAG 检索、非结构化文档解析与提取
LobeHub
github.com/lobehub/lobe-chat
AI Agent 协作平台,75,393+ stars。提供现代化的聊天界面,支持多模型切换、插件系统、Agent 团队协作、知识库管理,是个人 AI 工作台的优秀选择
🎯企业知识库问答与 RAG 检索