unstructured
文档结构化转换工具,15K+ stars。轻松将非结构化文档转换为结构化数据,支持多种文档格式的解析和 ETL 处理
🎯适用场景:非结构化文档解析与提取、数据采集与 ETL 处理
📥 收录于 2026/5/7
📊 仓库数据
📈 Stars 变化 ↑6 小时 +4· 统计区间 6/28 18:12 → 6/29 00:15(6 小时)
✅ 优点
- •多格式文档解析支持
- •可视化工作流编排
- •15K+ stars 社区认可
- •开源免费
⚠️ 限制
- •检索效果依赖文档质量与分块策略
- •检索质量依赖分块策略
- •文档与社区支持因项目而异
🔗 相关工具
MinerU
github.com/opendatalab/MinerU
MinerU 是一款开源的 PDF 文档解析与转换工具,能够将复杂的 PDF 和 Office 文档转换为 LLM 可用的 Markdown/JSON 格式。支持版面分析、表格提取、公式识别和 OCR,专为 AI 智能体工作流设计。66K+ stars。
🎯将 PDF/Office 文档转换为 AI 友好的格式,用于 RAG 知识库构建和文档智能分析
PageIndex
github.com/VectifyAI/PageIndex
无需向量数据库的推理式 RAG 文档索引方案。通过推理式检索替代传统的向量相似度匹配,大幅提升 RAG 系统的检索精度和相关性。31K+ stars,代表 RAG 技术从向量匹配向推理驱动演进的新方向
🎯知识库问答与 RAG 检索
Pdf Inspector
github.com/firecrawl/pdf-inspector
Firecrawl PDF Inspector 是专门用于 PDF 文档智能分析的工具,支持表格、排版和结构保真提取。基于视觉大语言模型实现 PDF 到 Markdown 的高精度转换。
🎯PDF 文档解析、表格提取、文档数字化
Tensorflow
github.com/tensorflow/tensorflow
全球最流行的机器学习框架之一,195K+ stars。Google 开源的端到端 ML 平台,支持 TensorFlow、Keras 等多种 API,覆盖深度学习、强化学习、移动端部署等全场景,是 AI 工程师的必备工具
🎯深度学习模型训练、移动端 AI 部署、生产环境 ML 推理服务
MarkItDown
github.com/microsoft/markitdown
微软开源的通用文件转 Markdown 工具,支持 PDF、Word、PPT、Excel、HTML、音频、图片 OCR 等数十种格式转换,专为 LLM 和 RAG 数据预处理设计,插件系统可扩展,MIT 协议
🎯多模态内容理解与生成
Supabase
github.com/supabase/supabase
Postgres 开发平台,101,199+ stars。开源 Firebase 替代方案,内置向量数据库支持 pgvector,是构建 AI 应用(RAG、Agent)的理想后端基础设施。提供实时数据库、认证、存储、Edge Functions 等全栈能力。
🎯LLM 应用快速开发