PageIndex
无向量RAG文档索引方案,基于推理的检索替代传统向量数据库。PageIndex利用大模型的推理能力实现精准的文档检索,无需向量数据库即可构建高效的RAG系统。GitHub 31K+ stars,是RAG领域的新突破
🎯适用场景:企业文档检索、知识库问答、无向量数据库的RAG系统
📊 仓库数据
✅ 优点
- •无需向量数据库即可实现RAG
- •基于推理的检索更精准
- •开源免费
- •31K+ stars 社区活跃
⚠️ 限制
- •相对较新项目,生态仍在建设
- •大规模文档索引性能待验证
- •文档和示例较少
🔗 相关工具
LobeHub
开源⭐ 75kgithub.com/lobehub/lobe-chat
AI Agent 协作平台,75,393+ stars。提供现代化的聊天界面,支持多模型切换、插件系统、Agent 团队协作、知识库管理,是个人 AI 工作台的优秀选择
🎯 个人 AI 工作台、多模型统一入口、Agent 协作平台
GPT-Researcher
开源⭐ 27k↑+16github.com/assafelovic/gpt-researcher
GPT-Researcher 是一个自主研究 Agent,能够针对任意主题进行深度研究。它会自动规划搜索策略、收集多来源信息、交叉验证事实、生成结构化研究报告。26,600+ stars,支持 Google、Bing、Tavily 等多种搜索引擎,可以生成 Markdown、PDF、Word 格式的研究报告。适用于学术研究、市场分析、竞品调研等需要深度信息搜集和分析的场景。
🎯 学术研究、市场调研、竞品分析、信息聚合、报告自动生成
PersonaPlex
开源⭐ 9.6k↑+56github.com/NVIDIA/personaplex
NVIDIA 开源的个性化 AI 助手框架(GitHub 9.3k 星),支持多模态交互和个性化上下文管理,是 NVIDIA 在 Agent 原生应用领域的最新布局。利用 NVIDIA GPU 加速推理,支持用户画像构建、长期记忆和自适应对话,为企业打造个性化 AI 助手提供基础设施
🎯 企业个性化 AI 助手、多模态交互应用、NVIDIA 生态集成
MarkItDown
开源⭐ 118k↑+412github.com/microsoft/markitdown
微软开源的通用文件转 Markdown 工具,支持 PDF、Word、PPT、Excel、HTML、音频、图片 OCR 等数十种格式转换,专为 LLM 和 RAG 数据预处理设计,插件系统可扩展,MIT 协议
🎯 文档格式转换、内容预处理
Firecrawl
免费+付费⭐ 113k↑+173github.com/firecrawl/firecrawl
AI 友好的网页抓取 API,支持 URL → Markdown/结构化数据,110K+ stars。专为 LLM 应用设计,自动处理 JS 渲染、分页、反爬,是 RAG 系统的理想数据源
🎯 RAG 系统数据源、AI 训练数据收集、网站内容提取
RAGFlow
开源⭐ 79k↑+63github.com/infiniflow/ragflow
开源 RAG 引擎,78,566+ stars。深度融合检索与 LLM 能力,支持 PDF/Word/PPT 等多格式文档解析、智能分块、混合检索和引用溯源,是企业知识库问答的优选方案
🎯 企业知识库问答、文档智能检索、RAG 应用开发