MarkItDown
微软开源的通用文件转 Markdown 工具,支持 PDF、Word、PPT、Excel、HTML、音频、图片 OCR 等数十种格式转换,专为 LLM 和 RAG 数据预处理设计,插件系统可扩展,MIT 协议
🎯适用场景:多模态内容理解与生成
📊 仓库数据
📈 Stars 变化 ↑6 小时 +168· 统计区间 6/28 18:12 → 6/29 00:15(6 小时)
✅ 优点
- •微软多格式转 Markdown 工具
- •支持 PDF/Word/Excel
- •命令行友好
⚠️ 限制
- •转换质量偶有问题
- •复杂格式丢失
- •仅输出 Markdown
🔗 相关工具
Supabase
github.com/supabase/supabase
Postgres 开发平台,101,199+ stars。开源 Firebase 替代方案,内置向量数据库支持 pgvector,是构建 AI 应用(RAG、Agent)的理想后端基础设施。提供实时数据库、认证、存储、Edge Functions 等全栈能力。
🎯LLM 应用快速开发
China Textbook
github.com/TapXWorld/ChinaTextbook
收录所有小初高、大学 PDF 教材(GitHub 69k 星),覆盖中国完整教育体系,是 AI 教育应用和知识库构建的重要数据源
🎯中文 PDF 教材数据集、教育领域知识库构建
AFFiNE
github.com/toeverything/affine
开源、本地优先、隐私友好的 Notion 和 Miro 替代品,集知识库、文档、白板、数据库于一体的全功能工作空间
🎯个人/团队知识库搭建、文档管理、白板协作、替代 Notion
Meilisearch
github.com/meilisearch/meilisearch
AI 混合搜索引擎,57,234+ stars。开源、快速、易用的全文搜索引擎,支持 AI 语义搜索和传统关键词搜索混合使用,毫秒级响应,提供开箱即用的搜索体验
🎯知识库问答与 RAG 检索
Context7
github.com/upstash/context7
LLM 文档上下文引擎,53,227+ stars。自动获取和整理最新文档上下文,为 LLM 提供精确的技术参考信息,减少幻觉并提高回答质量
🎯知识库问答与 RAG 检索
Logseq
github.com/logseq/logseq
隐私优先的开源知识管理和协作平台,采用大纲式笔记和双向链接,支持本地 Markdown/Org-mode 文件,适合构建个人知识图谱和日常记录。
🎯大纲式知识管理和日常记录,适合研究型用户