Great Expectations

数据质量和验证框架,帮助团队定义、测试和文档化数据期望值,确保数据管道的可靠性。

🎯适用场景:在 AI/ML 数据管道中实施数据质量检查和验证

#data-quality#data-validation#data-engineering#mlops#testing

📥 收录于 2026/6/10

📊 仓库数据

Stars11,565
Forks1,763
语言Python
更新2026/6/17

📈 Stars 变化 6 小时 +2· 统计区间 6/17 06:02 → 6/17 12:04(6 小时)

优点

  • 数据质量验证的事实标准
  • 丰富的内置验证器
  • 自动生成数据文档

⚠️ 限制

  • 学习曲线较陡
  • 复杂场景需要自定义

🔗 相关工具

Polars

开源39k+5

github.com/pola-rs/polars

极速 DataFrame 库,38K+ stars。Rust 编写的高性能数据处理引擎,支持懒执行、流式处理和多线程并行,比 pandas 快数倍,是 AI 数据预处理和 ETL 的理想工具。

🎯大规模数据集的预处理和特征工程

#DataFrame#Rust#高性能#数据处理
语言Rust
🍴 Forks2,889
🔄 更新2026/6/17
📥 收录2026/5/29

MLflow

开源27k+3

github.com/mlflow/mlflow

开源 AI 工程平台,26K+ stars。面向 Agent、LLM 和 ML 模型的端到端生命周期管理平台,支持实验追踪、模型注册、部署和监控

🎯ML/LLM 实验追踪、模型版本注册与部署、Agent 生命周期管理

#agentops#智能体#ai#ai-governance+1
语言Python
🍴 Forks5,854
🔄 更新2026/6/17
📥 收录2026/5/7

Kedro

开源11k

github.com/kedro-org/kedro

开源数据工程框架,提供标准化的数据管道开发流程,支持数据验证、版本控制和可重复实验,是构建生产级 ML 管道的最佳实践工具。

🎯标准化数据管道开发和 ML 项目工程管理

#data-engineering#ml-pipeline#Python
语言Python
🍴 Forks1,042
🔄 更新2026/6/17
📥 收录2026/6/7

Firecrawl

免费+付费134k+83

github.com/firecrawl/firecrawl

AI 友好的网页抓取 API,支持 URL → Markdown/结构化数据,110K+ stars。专为 LLM 应用设计,自动处理 JS 渲染、分页、反爬,是 RAG 系统的理想数据源

🎯网页自动化与数据采集

#爬虫#API#LLM数据源#Markdown
语言TypeScript
🍴 Forks7,827
📅 上线2024/4/16
🔄 更新2026/6/17
📥 收录2026/4/13

OpenBB Platform

开源69k+13

github.com/openbb-finance/openbb

金融数据分析平台,66,139+ stars。开源金融数据基础设施,提供股票、加密货币、宏观经济等全方位数据查询和分析能力,支持 Python SDK 和终端使用

🎯金融数据采集与分析、股票与宏观数据查询

#金融数据#股票分析#Python#开源
语言Python
🍴 Forks6,980
📅 上线2020/12/20
🔄 更新2026/6/17
📥 收录2026/4/20

Scrapling

开源64k+89

github.com/D4Vinci/Scrapling

自适应 Web 爬取框架,52K+ stars。从单请求到全规模爬取全覆盖,智能处理反爬、动态渲染和复杂页面结构,是 AI Agent 数据采集的瑞士军刀

🎯AI Agent 数据采集、舆情分析数据源爬取、竞品监控自动化

#Web 爬取#自适应#反爬#数据采集
语言Python
🍴 Forks6,304
🔄 更新2026/6/17
📥 收录2026/5/22