Deep Searcher
开源版 Deep Research——对私有数据进行深度研究和检索。Python 编写,支持语义搜索、多跳推理和结构化报告生成,是 Perplexity/Google Search 的私有数据替代方案
🎯适用场景:知识库问答与 RAG 检索
📊 仓库数据
✅ 优点
- •私有数据深度研究
- •多跳推理检索
- •结构化报告输出
- •Zilliz 出品质量有保障
⚠️ 限制
- •需要向量数据库依赖
- •复杂查询性能待验证
- •项目较新
🔗 相关工具
Meilisearch
github.com/meilisearch/meilisearch
AI 混合搜索引擎,57,234+ stars。开源、快速、易用的全文搜索引擎,支持 AI 语义搜索和传统关键词搜索混合使用,毫秒级响应,提供开箱即用的搜索体验
🎯知识库问答与 RAG 检索
qdrant
github.com/qdrant/qdrant
高性能向量数据库,6.3K+ stars。高性能、大规模向量数据库和向量搜索引擎,支持相似度检索和语义搜索
🎯向量检索与语义搜索
Weaviate
github.com/weaviate/weaviate
开源向量数据库,16K+ stars。同时存储对象和向量,支持混合搜索、语义搜索和生成式搜索,是 RAG 系统的热门向量存储方案
🎯RAG 系统的向量存储层,语义搜索、混合搜索、知识图谱集成
ZVec
github.com/alibaba/zvec
阿里巴巴开源的轻量级进程内向量数据库,极速语义检索。嵌入式设计无需独立部署,支持 HNSW 高效近似最近邻搜索,是 Agent 记忆和 RAG 系统的轻量级向量存储方案。9.6K stars
🎯知识库问答与 RAG 检索
MarkItDown
github.com/microsoft/markitdown
微软开源的通用文件转 Markdown 工具,支持 PDF、Word、PPT、Excel、HTML、音频、图片 OCR 等数十种格式转换,专为 LLM 和 RAG 数据预处理设计,插件系统可扩展,MIT 协议
🎯多模态内容理解与生成
Firecrawl
github.com/firecrawl/firecrawl
AI 友好的网页抓取 API,支持 URL → Markdown/结构化数据,110K+ stars。专为 LLM 应用设计,自动处理 JS 渲染、分页、反爬,是 RAG 系统的理想数据源
🎯网页自动化与数据采集