Great Expectations
数据质量和验证框架,帮助团队定义、测试和文档化数据期望值,确保数据管道的可靠性。
🎯适用场景:在 AI/ML 数据管道中实施数据质量检查和验证
📥 收录于 2026/6/10
📊 仓库数据
📈 Stars 变化 ↑6 小时 +2· 统计区间 6/17 06:02 → 6/17 12:04(6 小时)
✅ 优点
- •数据质量验证的事实标准
- •丰富的内置验证器
- •自动生成数据文档
⚠️ 限制
- •学习曲线较陡
- •复杂场景需要自定义
🔗 相关工具
Polars
github.com/pola-rs/polars
极速 DataFrame 库,38K+ stars。Rust 编写的高性能数据处理引擎,支持懒执行、流式处理和多线程并行,比 pandas 快数倍,是 AI 数据预处理和 ETL 的理想工具。
🎯大规模数据集的预处理和特征工程
MLflow
github.com/mlflow/mlflow
开源 AI 工程平台,26K+ stars。面向 Agent、LLM 和 ML 模型的端到端生命周期管理平台,支持实验追踪、模型注册、部署和监控
🎯ML/LLM 实验追踪、模型版本注册与部署、Agent 生命周期管理
Kedro
github.com/kedro-org/kedro
开源数据工程框架,提供标准化的数据管道开发流程,支持数据验证、版本控制和可重复实验,是构建生产级 ML 管道的最佳实践工具。
🎯标准化数据管道开发和 ML 项目工程管理
Firecrawl
github.com/firecrawl/firecrawl
AI 友好的网页抓取 API,支持 URL → Markdown/结构化数据,110K+ stars。专为 LLM 应用设计,自动处理 JS 渲染、分页、反爬,是 RAG 系统的理想数据源
🎯网页自动化与数据采集
OpenBB Platform
github.com/openbb-finance/openbb
金融数据分析平台,66,139+ stars。开源金融数据基础设施,提供股票、加密货币、宏观经济等全方位数据查询和分析能力,支持 Python SDK 和终端使用
🎯金融数据采集与分析、股票与宏观数据查询
Scrapling
github.com/D4Vinci/Scrapling
自适应 Web 爬取框架,52K+ stars。从单请求到全规模爬取全覆盖,智能处理反爬、动态渲染和复杂页面结构,是 AI Agent 数据采集的瑞士军刀
🎯AI Agent 数据采集、舆情分析数据源爬取、竞品监控自动化