Maxun
开源无代码网页数据提取平台,将网站转为结构化 API。支持爬取、搜索和 AI 数据提取,Playwright 驱动,可自托管。是构建 RAG 知识库和 Agent 数据采集的基础设施
🎯适用场景:企业知识库问答与 RAG 检索、网页自动化与数据采集
📥 收录于 2026/5/18
📊 仓库数据
📈 Stars 变化 ↑2 天 +18· 统计区间 6/10 18:11 → 6/12 06:53(2 天)
✅ 优点
- •内置 RAG 检索增强能力
- •原生 Agent 编排与工具调用
- •浏览器/桌面自动化能力
- •16K+ stars 社区认可
- •开源免费
⚠️ 限制
- •需要 Node.js 环境
- •AGPL-3.0 协议商用需注意
- •文档与社区支持因项目而异
🔗 相关工具
LLM App
github.com/pathwaycom/llm-app
RAG 和 AI 管道模板,59,967+ stars。Pathway 提供的实时 RAG(检索增强生成)解决方案,支持流式数据处理、实时更新知识库,适合构建生产级 AI 应用
🎯企业知识库问答与 RAG 检索、数据采集与 ETL 处理
Crawl4AI
github.com/unclecode/crawl4ai
面向 AI Agent 的开源 Web 爬取框架,支持网页爬虫、Markdown 生成、JavaScript 执行和 LLM 结构化提取。为 Agent 提供可靠的 Web 数据获取能力,支持异步爬取、智能去重和内容清洗,是构建 RAG 系统和 Agent 知识库的关键基础设施
🎯企业知识库问答与 RAG 检索、网页自动化与数据采集
Docling
github.com/docling-project/docling
文档 AI 预处理工具,58,284+ stars。将 PDF、Word、PPT 等文档转换为 AI 友好的格式,保留表格、公式、图片结构。是 RAG 系统和知识库构建的前置数据准备利器。
🎯企业知识库问答与 RAG 检索、非结构化文档解析与提取
LlamaIndex
github.com/run-llama/llama_index
文档 Agent 和 OCR 平台,48,716+ stars。领先的 RAG 框架,提供文档索引、数据检索、Agent 编排等完整能力,支持多模态文档理解和智能问答
🎯企业知识库问答与 RAG 检索、多模态内容理解与生成
Cherry Studio
github.com/CherryHQ/cherry-studio
AI 生产力工作室,43,887+ stars。集智能聊天、自动 Agent、知识库管理于一体的 AI 效率工具,支持多模型切换和插件扩展,打造个人专属 AI 工作台
🎯企业知识库问答与 RAG 检索
Quivr
github.com/QuivrHQ/quivr
RAG 知识管理工具,39,116+ stars。开源检索增强生成平台,支持多种文档格式上传和智能检索,构建个人 AI 知识库,实现基于自有文档的智能问答
🎯企业知识库问答与 RAG 检索