PageIndex

开源RAG & 检索31k

无向量RAG文档索引方案,基于推理的检索替代传统向量数据库。PageIndex利用大模型的推理能力实现精准的文档检索,无需向量数据库即可构建高效的RAG系统。GitHub 31K+ stars,是RAG领域的新突破

🎯适用场景:企业文档检索、知识库问答、无向量数据库的RAG系统

#无向量RAG#推理检索#文档索引#开源

📊 仓库数据

Stars31,469
Forks2,688
语言Python
上线2025/4/1
更新2026/5/16

优点

  • 无需向量数据库即可实现RAG
  • 基于推理的检索更精准
  • 开源免费
  • 31K+ stars 社区活跃

⚠️ 限制

  • 相对较新项目,生态仍在建设
  • 大规模文档索引性能待验证
  • 文档和示例较少

🔗 相关工具

LobeHub

开源75k

github.com/lobehub/lobe-chat

AI Agent 协作平台,75,393+ stars。提供现代化的聊天界面,支持多模型切换、插件系统、Agent 团队协作、知识库管理,是个人 AI 工作台的优秀选择

🎯 个人 AI 工作台、多模型统一入口、Agent 协作平台

#AI 聊天#多模型#Agent 协作#开源
语言TypeScript
🔄 更新2026/5/16

GPT-Researcher

开源27k↑+16

github.com/assafelovic/gpt-researcher

GPT-Researcher 是一个自主研究 Agent,能够针对任意主题进行深度研究。它会自动规划搜索策略、收集多来源信息、交叉验证事实、生成结构化研究报告。26,600+ stars,支持 Google、Bing、Tavily 等多种搜索引擎,可以生成 Markdown、PDF、Word 格式的研究报告。适用于学术研究、市场分析、竞品调研等需要深度信息搜集和分析的场景。

🎯 学术研究、市场调研、竞品分析、信息聚合、报告自动生成

#开源#自主研究#信息搜集#报告生成+1
语言Python
🍴 Forks3,571
📅 上线2023/5/12
🔄 更新2026/4/27

PersonaPlex

开源9.6k↑+56

github.com/NVIDIA/personaplex

NVIDIA 开源的个性化 AI 助手框架(GitHub 9.3k 星),支持多模态交互和个性化上下文管理,是 NVIDIA 在 Agent 原生应用领域的最新布局。利用 NVIDIA GPU 加速推理,支持用户画像构建、长期记忆和自适应对话,为企业打造个性化 AI 助手提供基础设施

🎯 企业个性化 AI 助手、多模态交互应用、NVIDIA 生态集成

#开源#NVIDIA#个性化 AI#多模态
语言Python
🍴 Forks1,345
📅 上线2026/1/5
🔄 更新2026/4/27

MarkItDown

开源118k↑+412

github.com/microsoft/markitdown

微软开源的通用文件转 Markdown 工具,支持 PDF、Word、PPT、Excel、HTML、音频、图片 OCR 等数十种格式转换,专为 LLM 和 RAG 数据预处理设计,插件系统可扩展,MIT 协议

🎯 文档格式转换、内容预处理

#文件转换#Markdown#数据预处理#OCR
语言Python
🍴 Forks7,746
📅 上线2024/11/13
🔄 更新2026/4/27

Firecrawl

免费+付费113k↑+173

github.com/firecrawl/firecrawl

AI 友好的网页抓取 API,支持 URL → Markdown/结构化数据,110K+ stars。专为 LLM 应用设计,自动处理 JS 渲染、分页、反爬,是 RAG 系统的理想数据源

🎯 RAG 系统数据源、AI 训练数据收集、网站内容提取

#爬虫#API#LLM数据源#Markdown
语言TypeScript
🍴 Forks7,175
📅 上线2024/4/15
🔄 更新2026/4/27

RAGFlow

开源79k↑+63

github.com/infiniflow/ragflow

开源 RAG 引擎,78,566+ stars。深度融合检索与 LLM 能力,支持 PDF/Word/PPT 等多格式文档解析、智能分块、混合检索和引用溯源,是企业知识库问答的优选方案

🎯 企业知识库问答、文档智能检索、RAG 应用开发

#RAG#知识库#文档检索#企业级
语言Python
🍴 Forks8,956
📅 上线2023/12/12
🔄 更新2026/4/27