Kedro

开源数据处理 › 爬虫与采集⭐ 11k

开源数据工程框架，提供标准化的数据管道开发流程，支持数据验证、版本控制和可重复实验，是构建生产级 ML 管道的最佳实践工具。

🎯适用场景：标准化数据管道开发和 ML 项目工程管理

#data-engineering#ml-pipeline#Python

📥 收录于 2026/6/7

访问工具

📊 仓库数据

Stars10,931

Forks1,059

语言Python

更新2026/7/24

✅ 优点

•标准化的数据项目开发模板
•内置数据验证和版本控制
•支持多种数据源和存储格式
•10K+ stars 社区活跃

⚠️ 限制

•主要针对 Python 生态，多语言支持有限
•初学者需要学习 Kedro 特有的项目结构

🔗 相关工具

OpenBB Platform

开源⭐ 71k↑+21

github.com/openbb-finance/openbb

金融数据分析平台，66,139+ stars。开源金融数据基础设施，提供股票、加密货币、宏观经济等全方位数据查询和分析能力，支持 Python SDK 和终端使用

🎯金融数据采集与分析、股票与宏观数据查询

ScrapeGraph AI

开源⭐ 29k↑+10

github.com/scrapegraphai/scrapegraph-ai

基于 AI 的 Python 智能爬虫——利用大语言模型自动从网页、文档等来源提取结构化数据，无需手动编写解析规则。

🎯智能数据采集——自动从网页和文档中提取结构化数据，适合需要灵活抓取非结构化信息的场景

#智能爬虫#数据提取#大语言模型#Python

Great Expectations

开源⭐ 12k

github.com/great-expectations/great_expectations

数据质量和验证框架，帮助团队定义、测试和文档化数据期望值，确保数据管道的可靠性。

🎯在 AI/ML 数据管道中实施数据质量检查和验证

#data-quality#data-validation#data-engineering#mlops+1

Firecrawl

免费+付费⭐ 155k↑+217

github.com/firecrawl/firecrawl

AI 友好的网页抓取 API，支持 URL → Markdown/结构化数据，110K+ stars。专为 LLM 应用设计，自动处理 JS 渲染、分页、反爬，是 RAG 系统的理想数据源

🎯网页自动化与数据采集

#爬虫#API#LLM数据源#Markdown

Scrapling

开源⭐ 71k↑+77

github.com/D4Vinci/Scrapling

自适应 Web 爬取框架，52K+ stars。从单请求到全规模爬取全覆盖，智能处理反爬、动态渲染和复杂页面结构，是 AI Agent 数据采集的瑞士军刀

🎯AI Agent 数据采集、舆情分析数据源爬取、竞品监控自动化

TrendRadar

开源⭐ 61k↑+17

github.com/sansan0/TrendRadar

AI 驱动的舆情监控与趋势分析助手，58K+ stars。支持多平台信息聚合、RSS 订阅、智能预警，帮助打破信息茧房，还原舆情全貌并预测未来走向，辅助决策

🎯AI 舆情监控、行业趋势分析与情报收集系统

#舆情分析#多平台聚合#RSS#智能预警+1