retain-pdf

开源RAG & 检索1.9k

在保留版面、公式与结构的前提下进行 PDF 翻译,适用于科研论文与技术文档的高质量翻译场景

🎯适用场景:科研论文翻译、技术文档本地化、PDF 格式保留翻译

#Document-ai#Document-processing#Layout-preserving#Ocr

📥 收录于 2026/6/3

📊 仓库数据

Stars1,850
Forks217
语言Python
更新2026/6/3

优点

  • 保留原始排版
  • 支持公式和表格
  • 适合学术场景

⚠️ 限制

  • 复杂排版可能仍有偏差
  • 依赖 OCR 精度

🔗 相关工具

unstract

开源6.6k

github.com/Zipstack/unstract

LLM 驱动的非结构化数据提取工具,面向 API 部署和 ETL 管道工作流。支持从 PDF、发票、合同等文档中自动提取结构化数据,适合企业级文档处理场景。6.6K+ stars。

🎯企业文档自动处理、发票/合同信息提取、RAG 数据管道构建

#Ai-agents#Data-engineering#Document-ai#Generative-ai
语言Python
🍴 Forks625
🔄 更新2026/6/3
📥 收录2026/6/3

deepdoctection

开源3.2k

github.com/deepdoctection/deepdoctection

文档 AI 分析工具库,支持文档图像分析、版面分析、OCR 识别和文档理解,适用于 RAG 系统的文档预处理环节。

🎯RAG 系统中文档的版面分析、OCR 识别和信息抽取

#Document-ai#Document-image-analysis#Document-layout-analysis#Document-parser
语言Python
🍴 Forks191
🔄 更新2026/6/3
📥 收录2026/6/3

MarkItDown

开源143k↑+244

github.com/microsoft/markitdown

微软开源的通用文件转 Markdown 工具,支持 PDF、Word、PPT、Excel、HTML、音频、图片 OCR 等数十种格式转换,专为 LLM 和 RAG 数据预处理设计,插件系统可扩展,MIT 协议

🎯多模态内容理解与生成

#文件转换#Markdown#数据预处理#OCR
语言Python
🍴 Forks9,752
📅 上线2023/2/8
🔄 更新2026/6/3
📥 收录2026/4/13

Firecrawl

免费+付费128k↑+117

github.com/firecrawl/firecrawl

AI 友好的网页抓取 API,支持 URL → Markdown/结构化数据,110K+ stars。专为 LLM 应用设计,自动处理 JS 渲染、分页、反爬,是 RAG 系统的理想数据源

🎯网页自动化与数据采集

#爬虫#API#LLM数据源#Markdown
语言TypeScript
🍴 Forks7,639
📅 上线2024/4/15
🔄 更新2026/6/3
📥 收录2026/4/13

RAGFlow

开源82k↑+12

github.com/infiniflow/ragflow

开源 RAG 引擎,78,566+ stars。深度融合检索与 LLM 能力,支持 PDF/Word/PPT 等多格式文档解析、智能分块、混合检索和引用溯源,是企业知识库问答的优选方案

🎯企业知识库问答与 RAG 检索、非结构化文档解析与提取

#RAG#知识库#文档检索#企业级
语言Python
🍴 Forks9,425
📅 上线2023/12/12
🔄 更新2026/6/3
📥 收录2026/4/13

LobeHub

开源78k↑+12

github.com/lobehub/lobe-chat

AI Agent 协作平台,75,393+ stars。提供现代化的聊天界面,支持多模型切换、插件系统、Agent 团队协作、知识库管理,是个人 AI 工作台的优秀选择

🎯企业知识库问答与 RAG 检索

#AI 聊天#多模型#Agent 协作#开源
语言TypeScript
🍴 Forks15,368
🔄 更新2026/6/3
📥 收录2026/4/20