kreuzberg

开源RAG & 检索8.4k↑+2

多语言文档智能处理框架,Rust 核心引擎。支持从 PDF、Office 文档、图片等 97+ 格式中提取文本、元数据、图像和结构化信息,提供多语言 SDK 和 MCP 服务器。8.4K+ stars。

🎯适用场景:RAG 系统文档预处理、多格式文档批量解析、AI 知识库构建

#Bun#Csharp#Document-intelligence#Elixir

📥 收录于 2026/6/3

📊 仓库数据

Stars8,434
Forks497
语言Rust
更新2026/6/3

📈 上次抓取以来 ↑+2

优点

  • 支持 97+ 文件格式
  • Rust 核心性能优秀
  • 多语言 SDK 覆盖广

⚠️ 限制

  • 相对较新项目生态待成熟
  • 高级功能需 Rust 开发能力
  • 文档中文支持待加强

🔗 相关工具

MarkItDown

开源143k↑+244

github.com/microsoft/markitdown

微软开源的通用文件转 Markdown 工具,支持 PDF、Word、PPT、Excel、HTML、音频、图片 OCR 等数十种格式转换,专为 LLM 和 RAG 数据预处理设计,插件系统可扩展,MIT 协议

🎯多模态内容理解与生成

#文件转换#Markdown#数据预处理#OCR
语言Python
🍴 Forks9,752
📅 上线2023/2/8
🔄 更新2026/6/3
📥 收录2026/4/13

Firecrawl

免费+付费128k↑+117

github.com/firecrawl/firecrawl

AI 友好的网页抓取 API,支持 URL → Markdown/结构化数据,110K+ stars。专为 LLM 应用设计,自动处理 JS 渲染、分页、反爬,是 RAG 系统的理想数据源

🎯网页自动化与数据采集

#爬虫#API#LLM数据源#Markdown
语言TypeScript
🍴 Forks7,639
📅 上线2024/4/15
🔄 更新2026/6/3
📥 收录2026/4/13

RAGFlow

开源82k↑+12

github.com/infiniflow/ragflow

开源 RAG 引擎,78,566+ stars。深度融合检索与 LLM 能力,支持 PDF/Word/PPT 等多格式文档解析、智能分块、混合检索和引用溯源,是企业知识库问答的优选方案

🎯企业知识库问答与 RAG 检索、非结构化文档解析与提取

#RAG#知识库#文档检索#企业级
语言Python
🍴 Forks9,425
📅 上线2023/12/12
🔄 更新2026/6/3
📥 收录2026/4/13

LobeHub

开源78k↑+12

github.com/lobehub/lobe-chat

AI Agent 协作平台,75,393+ stars。提供现代化的聊天界面,支持多模型切换、插件系统、Agent 团队协作、知识库管理,是个人 AI 工作台的优秀选择

🎯企业知识库问答与 RAG 检索

#AI 聊天#多模型#Agent 协作#开源
语言TypeScript
🍴 Forks15,368
🔄 更新2026/6/3
📥 收录2026/4/20

MinerU

开源66k↑+18

github.com/opendatalab/MinerU

MinerU 是一款开源的 PDF 文档解析与转换工具,能够将复杂的 PDF 和 Office 文档转换为 LLM 可用的 Markdown/JSON 格式。支持版面分析、表格提取、公式识别和 OCR,专为 AI 智能体工作流设计。66K+ stars。

🎯将 PDF/Office 文档转换为 AI 友好的格式,用于 RAG 知识库构建和文档智能分析

#Ai4science#Document-analysis#Docx#Extract-data
语言Python
🍴 Forks5,582
🔄 更新2026/6/3
📥 收录2026/6/3

AnythingLLM

开源61k↑+21

github.com/mintplex-labs/anything-llm

本地 AI 生产力工具,58,641+ stars。一站式本地 AI 应用方案,支持文档管理、向量数据库、多模型切换,可完全本地化部署,保护数据隐私

🎯知识库问答与 RAG 检索

#本地AI#文档问答#向量数据库#隐私保护
语言JavaScript
🍴 Forks6,626
📅 上线2023/6/4
🔄 更新2026/6/3
📥 收录2026/4/20