China Textbook

收录所有小初高、大学 PDF 教材(GitHub 69k 星),覆盖中国完整教育体系,是 AI 教育应用和知识库构建的重要数据源

🎯适用场景:中文 PDF 教材数据集、教育领域知识库构建

#开源#教育#PDF 教材#中文数据

📥 收录于 2026/4/15

📊 仓库数据

Stars74,903
Forks16,784
语言Roff
上线2020/1/5
更新2026/6/28

📈 Stars 变化 6 小时 +26· 统计区间 6/28 18:12 → 6/29 00:15(6 小时)

优点

  • 中国教材数据集
  • 教育 AI 训练数据
  • 覆盖多学科

⚠️ 限制

  • 仅数据集非工具
  • 数据质量需验证
  • 更新频率低

🔗 相关工具

GPT-Researcher

开源28k+5

github.com/assafelovic/gpt-researcher

GPT-Researcher 是一个自主研究 Agent,能够针对任意主题进行深度研究。它会自动规划搜索策略、收集多来源信息、交叉验证事实、生成结构化研究报告。26,600+ stars,支持 Google、Bing、Tavily 等多种搜索引擎,可以生成 Markdown、PDF、Word 格式的研究报告。适用于学术研究、市场分析、竞品调研等需要深度信息搜集和分析的场景。

🎯知识库问答与 RAG 检索

#开源#自主研究#信息搜集#报告生成+1
语言Python
🍴 Forks3,771
🔄 更新2026/6/28
📥 收录2026/4/23

MarkItDown

开源160k+168

github.com/microsoft/markitdown

微软开源的通用文件转 Markdown 工具,支持 PDF、Word、PPT、Excel、HTML、音频、图片 OCR 等数十种格式转换,专为 LLM 和 RAG 数据预处理设计,插件系统可扩展,MIT 协议

🎯多模态内容理解与生成

#文件转换#Markdown#数据预处理#OCR
语言Python
🍴 Forks11,273
📅 上线2023/2/9
🔄 更新2026/6/29
📥 收录2026/4/13

Supabase

开源105k+16

github.com/supabase/supabase

Postgres 开发平台,101,199+ stars。开源 Firebase 替代方案,内置向量数据库支持 pgvector,是构建 AI 应用(RAG、Agent)的理想后端基础设施。提供实时数据库、认证、存储、Edge Functions 等全栈能力。

🎯LLM 应用快速开发

#PostgreSQL#向量数据库#AI 后端#全栈
语言TypeScript
🍴 Forks12,897
📅 上线2020/10/1
🔄 更新2026/6/29
📥 收录2026/4/21

AFFiNE

开源70k+11

github.com/toeverything/affine

开源、本地优先、隐私友好的 Notion 和 Miro 替代品,集知识库、文档、白板、数据库于一体的全功能工作空间

🎯个人/团队知识库搭建、文档管理、白板协作、替代 Notion

#知识库#wiki#notion-alternative#local-first+1
语言TypeScript
🍴 Forks4,985
🔄 更新2026/6/29
📥 收录2026/6/7

Meilisearch

开源58k+5

github.com/meilisearch/meilisearch

AI 混合搜索引擎,57,234+ stars。开源、快速、易用的全文搜索引擎,支持 AI 语义搜索和传统关键词搜索混合使用,毫秒级响应,提供开箱即用的搜索体验

🎯知识库问答与 RAG 检索

#搜索引擎#全文检索#语义搜索#AI搜索
语言Rust
🍴 Forks2,600
📅 上线2018/4/23
🔄 更新2026/6/28
📥 收录2026/4/20

Context7

开源58k+15

github.com/upstash/context7

LLM 文档上下文引擎,53,227+ stars。自动获取和整理最新文档上下文,为 LLM 提供精确的技术参考信息,减少幻觉并提高回答质量

🎯知识库问答与 RAG 检索

#上下文引擎#大语言模型#文档#RAG
语言TypeScript
🍴 Forks2,729
📅 上线2025/3/27
🔄 更新2026/6/28
📥 收录2026/4/20