Crawl4AI
面向 AI Agent 的开源 Web 爬取框架,支持网页爬虫、Markdown 生成、JavaScript 执行和 LLM 结构化提取。为 Agent 提供可靠的 Web 数据获取能力,支持异步爬取、智能去重和内容清洗,是构建 RAG 系统和 Agent 知识库的关键基础设施
🎯适用场景:企业知识库问答与 RAG 检索、网页自动化与数据采集
📊 仓库数据
📈 Stars 变化 ↑2 天 +88· 统计区间 6/11 00:28 → 6/12 12:34(2 天)
✅ 优点
- •专为 AI Agent 设计
- •支持 JS 渲染和动态内容
- •Markdown 输出适配 LLM
- •异步高性能爬取
⚠️ 限制
- •相对较新,稳定性待验证
- •大规模爬取需自行优化
- •反爬对抗能力有限
- •文档和示例较少
🔗 相关工具
LobeHub
github.com/lobehub/lobe-chat
AI Agent 协作平台,75,393+ stars。提供现代化的聊天界面,支持多模型切换、插件系统、Agent 团队协作、知识库管理,是个人 AI 工作台的优秀选择
🎯企业知识库问答与 RAG 检索
LLM App
github.com/pathwaycom/llm-app
RAG 和 AI 管道模板,59,967+ stars。Pathway 提供的实时 RAG(检索增强生成)解决方案,支持流式数据处理、实时更新知识库,适合构建生产级 AI 应用
🎯企业知识库问答与 RAG 检索、数据采集与 ETL 处理
Docling
github.com/docling-project/docling
文档 AI 预处理工具,58,284+ stars。将 PDF、Word、PPT 等文档转换为 AI 友好的格式,保留表格、公式、图片结构。是 RAG 系统和知识库构建的前置数据准备利器。
🎯企业知识库问答与 RAG 检索、非结构化文档解析与提取
LlamaIndex
github.com/run-llama/llama_index
文档 Agent 和 OCR 平台,48,716+ stars。领先的 RAG 框架,提供文档索引、数据检索、Agent 编排等完整能力,支持多模态文档理解和智能问答
🎯企业知识库问答与 RAG 检索、多模态内容理解与生成
Cherry Studio
github.com/CherryHQ/cherry-studio
AI 生产力工作室,43,887+ stars。集智能聊天、自动 Agent、知识库管理于一体的 AI 效率工具,支持多模型切换和插件扩展,打造个人专属 AI 工作台
🎯企业知识库问答与 RAG 检索
Quivr
github.com/QuivrHQ/quivr
RAG 知识管理工具,39,116+ stars。开源检索增强生成平台,支持多种文档格式上传和智能检索,构建个人 AI 知识库,实现基于自有文档的智能问答
🎯企业知识库问答与 RAG 检索