R2R

开源RAG & 检索7.8k

SoTA production-ready AI retrieval system. Agentic Retrieval-Augmented Generation (RAG) with a RESTful API.

#artificial-intelligence#large-language-models#python#question-answering#rag

📊 仓库数据

Stars7,820
Forks626
语言Python
更新2025/11/7

🔗 相关工具

GraphRAG

开源33k

github.com/microsoft/graphrag

微软开源的基于知识图谱的 RAG 系统,将传统向量检索升级为图谱推理,大幅提升复杂问答的准确性和可解释性。

#rag#knowledge-graph#microsoft#retrieval+1
语言Python
🍴 Forks3,495
🔄 更新2026/5/13

storm

开源28k

github.com/stanford-oval/storm

An LLM-powered knowledge curation system that researches a topic and generates a full-length report with citations.

#agentic-rag#deep-research#emnlp2024#knowledge-curation+1
语言Python
🍴 Forks2,568
🔄 更新2025/9/30

Vespa

免费6.9k

github.com/vespa-engine/vespa

AI + Data, online. https://vespa.ai

#ai#big-data#java#machine-learning+1
语言Java
🍴 Forks710
📅 上线2016/6/3

MarkItDown

开源118k↑+412

github.com/microsoft/markitdown

微软开源的通用文件转 Markdown 工具,支持 PDF、Word、PPT、Excel、HTML、音频、图片 OCR 等数十种格式转换,专为 LLM 和 RAG 数据预处理设计,插件系统可扩展,MIT 协议

🎯 文档格式转换、内容预处理

#文件转换#Markdown#数据预处理#OCR
语言Python
🍴 Forks7,746
📅 上线2024/11/13
🔄 更新2026/4/27

Firecrawl

免费+付费113k↑+173

github.com/firecrawl/firecrawl

AI 友好的网页抓取 API,支持 URL → Markdown/结构化数据,110K+ stars。专为 LLM 应用设计,自动处理 JS 渲染、分页、反爬,是 RAG 系统的理想数据源

🎯 RAG 系统数据源、AI 训练数据收集、网站内容提取

#爬虫#API#LLM数据源#Markdown
语言TypeScript
🍴 Forks7,175
📅 上线2024/4/15
🔄 更新2026/4/27

RAGFlow

开源79k↑+63

github.com/infiniflow/ragflow

开源 RAG 引擎,78,566+ stars。深度融合检索与 LLM 能力,支持 PDF/Word/PPT 等多格式文档解析、智能分块、混合检索和引用溯源,是企业知识库问答的优选方案

🎯 企业知识库问答、文档智能检索、RAG 应用开发

#RAG#知识库#文档检索#企业级
语言Python
🍴 Forks8,956
📅 上线2023/12/12
🔄 更新2026/4/27