面向 AI Agent 的开源 Web 爬取框架,支持网页爬虫、Markdown 生成、JavaScript 执行和 LLM 结构化提取。为 Agent 提供可靠的 Web 数据获取能力,支持异步爬取、智能去重和内容清洗,是构建 RAG 系统和 Agent 知识库的关键基础设施

🎯适用场景:企业知识库问答与 RAG 检索、网页自动化与数据采集

#开源#Web 爬取#Agent 基础设施#Markdown

📥 收录于 2026/4/15

📊 仓库数据

Stars68,296
Forks6,976
语言Python
上线2024/5/9
更新2026/6/12

📈 Stars 变化 2 天 +88· 统计区间 6/11 00:28 → 6/12 12:34(2 天)

优点

  • 专为 AI Agent 设计
  • 支持 JS 渲染和动态内容
  • Markdown 输出适配 LLM
  • 异步高性能爬取

⚠️ 限制

  • 相对较新,稳定性待验证
  • 大规模爬取需自行优化
  • 反爬对抗能力有限
  • 文档和示例较少

🔗 相关工具

LobeHub

开源1.1k

github.com/lobehub/lobe-chat

AI Agent 协作平台,75,393+ stars。提供现代化的聊天界面,支持多模型切换、插件系统、Agent 团队协作、知识库管理,是个人 AI 工作台的优秀选择

🎯企业知识库问答与 RAG 检索

#AI 聊天#多模型#Agent 协作#开源
语言TypeScript
🍴 Forks317
🔄 更新2026/6/12
📥 收录2026/4/20

LLM App

开源114k

github.com/pathwaycom/llm-app

RAG 和 AI 管道模板,59,967+ stars。Pathway 提供的实时 RAG(检索增强生成)解决方案,支持流式数据处理、实时更新知识库,适合构建生产级 AI 应用

🎯企业知识库问答与 RAG 检索、数据采集与 ETL 处理

#RAG#实时数据#AI管道#知识检索
语言Python
🍴 Forks16,962
📅 上线2023/7/19
🔄 更新2026/6/12
📥 收录2026/4/20

Docling

开源61k+105

github.com/docling-project/docling

文档 AI 预处理工具,58,284+ stars。将 PDF、Word、PPT 等文档转换为 AI 友好的格式,保留表格、公式、图片结构。是 RAG 系统和知识库构建的前置数据准备利器。

🎯企业知识库问答与 RAG 检索、非结构化文档解析与提取

#文档处理#RAG 数据准备#PDF 解析#AI 预处理
语言Python
🍴 Forks4,290
📅 上线2024/6/1
🔄 更新2026/6/12
📥 收录2026/4/21

LlamaIndex

开源50k+23

github.com/run-llama/llama_index

文档 Agent 和 OCR 平台,48,716+ stars。领先的 RAG 框架,提供文档索引、数据检索、Agent 编排等完整能力,支持多模态文档理解和智能问答

🎯企业知识库问答与 RAG 检索、多模态内容理解与生成

#RAG#文档检索#智能体#知识库
语言Python
🍴 Forks7,536
📅 上线2022/11/2
🔄 更新2026/6/12
📥 收录2026/4/20

Cherry Studio

开源47k+59

github.com/CherryHQ/cherry-studio

AI 生产力工作室,43,887+ stars。集智能聊天、自动 Agent、知识库管理于一体的 AI 效率工具,支持多模型切换和插件扩展,打造个人专属 AI 工作台

🎯企业知识库问答与 RAG 检索

#AI 助手#多模型#智能体#知识库
语言TypeScript
🍴 Forks4,476
📅 上线2024/5/24
🔄 更新2026/6/12
📥 收录2026/4/20

Quivr

开源39k-2

github.com/QuivrHQ/quivr

RAG 知识管理工具,39,116+ stars。开源检索增强生成平台,支持多种文档格式上传和智能检索,构建个人 AI 知识库,实现基于自有文档的智能问答

🎯企业知识库问答与 RAG 检索

#RAG#知识管理#文档问答#向量搜索
语言Python
🍴 Forks3,726
📅 上线2023/5/13
🔄 更新2026/6/11
📥 收录2026/4/20