unstructured

文档结构化转换工具,15K+ stars。轻松将非结构化文档转换为结构化数据,支持多种文档格式的解析和 ETL 处理

🎯适用场景:非结构化文档解析与提取、数据采集与 ETL 处理

#data-pipelines#深度学习#document-image-analysis#document-image-processing#document-parser

📥 收录于 2026/5/7

📊 仓库数据

Stars15,021
Forks1,261
语言HTML
更新2026/6/28

📈 Stars 变化 6 小时 +4· 统计区间 6/28 18:12 → 6/29 00:15(6 小时)

优点

  • 多格式文档解析支持
  • 可视化工作流编排
  • 15K+ stars 社区认可
  • 开源免费

⚠️ 限制

  • 检索效果依赖文档质量与分块策略
  • 检索质量依赖分块策略
  • 文档与社区支持因项目而异

🔗 相关工具

MinerU

开源71k+192

github.com/opendatalab/MinerU

MinerU 是一款开源的 PDF 文档解析与转换工具,能够将复杂的 PDF 和 Office 文档转换为 LLM 可用的 Markdown/JSON 格式。支持版面分析、表格提取、公式识别和 OCR,专为 AI 智能体工作流设计。66K+ stars。

🎯将 PDF/Office 文档转换为 AI 友好的格式,用于 RAG 知识库构建和文档智能分析

#Ai4science#Document-analysis#Docx#Extract-data
语言Python
🍴 Forks5,996
🔄 更新2026/6/29
📥 收录2026/6/3

PageIndex

开源33k+5

github.com/VectifyAI/PageIndex

无需向量数据库的推理式 RAG 文档索引方案。通过推理式检索替代传统的向量相似度匹配,大幅提升 RAG 系统的检索精度和相关性。31K+ stars,代表 RAG 技术从向量匹配向推理驱动演进的新方向

🎯知识库问答与 RAG 检索

#RAG#推理式检索#文档索引#无需向量数据库
语言Python
🍴 Forks2,917
📅 上线2025/4/1
🔄 更新2026/6/28
📥 收录2026/5/17

Pdf Inspector

开源1.5k+1

github.com/firecrawl/pdf-inspector

Firecrawl PDF Inspector 是专门用于 PDF 文档智能分析的工具,支持表格、排版和结构保真提取。基于视觉大语言模型实现 PDF 到 Markdown 的高精度转换。

🎯PDF 文档解析、表格提取、文档数字化

#Markdown#Nodejs#Ocr-routing#Pdf
语言Rust
🍴 Forks142
🔄 更新2026/6/28
📥 收录2026/6/3

Tensorflow

开源196k+5

github.com/tensorflow/tensorflow

全球最流行的机器学习框架之一,195K+ stars。Google 开源的端到端 ML 平台,支持 TensorFlow、Keras 等多种 API,覆盖深度学习、强化学习、移动端部署等全场景,是 AI 工程师的必备工具

🎯深度学习模型训练、移动端 AI 部署、生产环境 ML 推理服务

#深度学习#deep-neural-networks#分布式#机器学习+1
语言C++
🍴 Forks75,189
🔄 更新2026/6/28
📥 收录2026/4/11

MarkItDown

开源160k+168

github.com/microsoft/markitdown

微软开源的通用文件转 Markdown 工具,支持 PDF、Word、PPT、Excel、HTML、音频、图片 OCR 等数十种格式转换,专为 LLM 和 RAG 数据预处理设计,插件系统可扩展,MIT 协议

🎯多模态内容理解与生成

#文件转换#Markdown#数据预处理#OCR
语言Python
🍴 Forks11,273
📅 上线2023/2/9
🔄 更新2026/6/29
📥 收录2026/4/13

Supabase

开源105k+16

github.com/supabase/supabase

Postgres 开发平台,101,199+ stars。开源 Firebase 替代方案,内置向量数据库支持 pgvector,是构建 AI 应用(RAG、Agent)的理想后端基础设施。提供实时数据库、认证、存储、Edge Functions 等全栈能力。

🎯LLM 应用快速开发

#PostgreSQL#向量数据库#AI 后端#全栈
语言TypeScript
🍴 Forks12,897
📅 上线2020/10/1
🔄 更新2026/6/29
📥 收录2026/4/21