Deeplake

开源RAG & 检索9.1k

AI Data Runtime for Agents——无服务器 Postgres + 多模态数据湖。为 Agent 提供统一的向量存储、数据集管理和 RAG 基础设施,支持图像、音频、视频和文本的混合检索

🎯适用场景:知识库问答与 RAG 检索

#向量存储#多模态#数据湖#RAG 基础设施

📥 收录于 2026/5/26

📊 仓库数据

Stars9,140
语言Python
上线2020/1/1

优点

  • 多模态数据统一管理
  • 无服务器架构免运维
  • Postgres 兼容查询
  • Agent 数据一站式方案

⚠️ 限制

  • 大规模数据需要付费版
  • 多模态存储资源消耗大
  • 学习曲线中等

🔗 相关工具

PersonaPlex

开源9.9k↑+1

github.com/NVIDIA/personaplex

NVIDIA 开源的个性化 AI 助手框架(GitHub 9.3k 星),支持多模态交互和个性化上下文管理,是 NVIDIA 在 Agent 原生应用领域的最新布局。利用 NVIDIA GPU 加速推理,支持用户画像构建、长期记忆和自适应对话,为企业打造个性化 AI 助手提供基础设施

🎯Agent 长期记忆与上下文管理

#开源#NVIDIA#个性化 AI#多模态
语言Python
🍴 Forks1,391
📅 上线2026/1/5
🔄 更新2026/5/25
📥 收录2026/4/15

UltraRAG

开源5.6k

github.com/OpenBMB/UltraRAG

低代码 MCP 框架,用于构建复杂创新的 RAG 管道,支持多模态,5.5K+ stars

🎯快速搭建企业级 RAG 系统

#RAG#MCP#低代码#多模态
语言Python
🍴 Forks420
🔄 更新2026/5/25
📥 收录2026/5/26

MarkItDown

开源125k↑+48

github.com/microsoft/markitdown

微软开源的通用文件转 Markdown 工具,支持 PDF、Word、PPT、Excel、HTML、音频、图片 OCR 等数十种格式转换,专为 LLM 和 RAG 数据预处理设计,插件系统可扩展,MIT 协议

🎯多模态内容理解与生成

#文件转换#Markdown#数据预处理#OCR
语言Python
🍴 Forks8,519
📅 上线2023/2/8
🔄 更新2026/5/25
📥 收录2026/4/13

Firecrawl

免费+付费124k↑+118

github.com/firecrawl/firecrawl

AI 友好的网页抓取 API,支持 URL → Markdown/结构化数据,110K+ stars。专为 LLM 应用设计,自动处理 JS 渲染、分页、反爬,是 RAG 系统的理想数据源

🎯网页自动化与数据采集

#爬虫#API#LLM数据源#Markdown
语言TypeScript
🍴 Forks7,486
📅 上线2024/4/15
🔄 更新2026/5/25
📥 收录2026/4/13

RAGFlow

开源81k↑+8

github.com/infiniflow/ragflow

开源 RAG 引擎,78,566+ stars。深度融合检索与 LLM 能力,支持 PDF/Word/PPT 等多格式文档解析、智能分块、混合检索和引用溯源,是企业知识库问答的优选方案

🎯企业知识库问答与 RAG 检索、非结构化文档解析与提取

#RAG#知识库#文档检索#企业级
语言Python
🍴 Forks9,315
📅 上线2023/12/12
🔄 更新2026/5/25
📥 收录2026/4/13

LobeHub

开源78k↑+8

github.com/lobehub/lobe-chat

AI Agent 协作平台,75,393+ stars。提供现代化的聊天界面,支持多模型切换、插件系统、Agent 团队协作、知识库管理,是个人 AI 工作台的优秀选择

🎯企业知识库问答与 RAG 检索

#AI 聊天#多模型#Agent 协作#开源
语言TypeScript
🍴 Forks15,289
🔄 更新2026/5/25
📥 收录2026/4/20