LEANN
MLsys2026 论文项目——万物皆可 RAG 的轻量级方案。实现 97% 存储压缩的同时保持快速准确的检索,100% 本地隐私保护。11.8K+ stars。
🎯适用场景:在资源受限环境下实现高效 RAG 检索,大幅压缩向量存储体积
📥 收录于 2026/5/31
📊 仓库数据
✅ 优点
- •97% 存储压缩率
- •100% 本地运行保护隐私
- •检索速度不受影响
⚠️ 限制
- •论文项目,生产成熟度待验证
- •生态和社区较新
🔗 相关工具
AnythingLLM
github.com/mintplex-labs/anything-llm
本地 AI 生产力工具,58,641+ stars。一站式本地 AI 应用方案,支持文档管理、向量数据库、多模型切换,可完全本地化部署,保护数据隐私
🎯知识库问答与 RAG 检索
MarkItDown
github.com/microsoft/markitdown
微软开源的通用文件转 Markdown 工具,支持 PDF、Word、PPT、Excel、HTML、音频、图片 OCR 等数十种格式转换,专为 LLM 和 RAG 数据预处理设计,插件系统可扩展,MIT 协议
🎯多模态内容理解与生成
Firecrawl
github.com/firecrawl/firecrawl
AI 友好的网页抓取 API,支持 URL → Markdown/结构化数据,110K+ stars。专为 LLM 应用设计,自动处理 JS 渲染、分页、反爬,是 RAG 系统的理想数据源
🎯网页自动化与数据采集
RAGFlow
github.com/infiniflow/ragflow
开源 RAG 引擎,78,566+ stars。深度融合检索与 LLM 能力,支持 PDF/Word/PPT 等多格式文档解析、智能分块、混合检索和引用溯源,是企业知识库问答的优选方案
🎯企业知识库问答与 RAG 检索、非结构化文档解析与提取
LobeHub
github.com/lobehub/lobe-chat
AI Agent 协作平台,75,393+ stars。提供现代化的聊天界面,支持多模型切换、插件系统、Agent 团队协作、知识库管理,是个人 AI 工作台的优秀选择
🎯企业知识库问答与 RAG 检索
Docling
github.com/docling-project/docling
文档 AI 预处理工具,58,284+ stars。将 PDF、Word、PPT 等文档转换为 AI 友好的格式,保留表格、公式、图片结构。是 RAG 系统和知识库构建的前置数据准备利器。
🎯企业知识库问答与 RAG 检索、非结构化文档解析与提取