ScrapeGraph AI

开源数据处理 › 爬虫与采集⭐ 28k↑+26

基于 AI 的 Python 智能爬虫——利用大语言模型自动从网页、文档等来源提取结构化数据，无需手动编写解析规则。

🎯适用场景：智能数据采集——自动从网页和文档中提取结构化数据，适合需要灵活抓取非结构化信息的场景

#智能爬虫#数据提取#大语言模型#Python

📥 收录于 2026/5/28

访问工具

📊 仓库数据

Stars28,288

Forks2,733

语言Python

更新2026/7/12

📈 Stars 变化 ↑23 小时 +26· 统计区间 7/11 18:09 → 7/12 17:23（23 小时）

✅ 优点

•26K+ stars 头部爬虫项目
•LLM 驱动自适应解析
•无需手动写 XPath/CSS 选择器
•开源免费

⚠️ 限制

•依赖 LLM API 调用有费用
•复杂页面提取准确率有波动
•Python 环境配置

🔗 相关工具

OpenBB Platform

开源⭐ 70k↑+31

github.com/openbb-finance/openbb

金融数据分析平台，66,139+ stars。开源金融数据基础设施，提供股票、加密货币、宏观经济等全方位数据查询和分析能力，支持 Python SDK 和终端使用

🎯金融数据采集与分析、股票与宏观数据查询

#金融数据#股票分析#Python#开源

语言Python

🍴 Forks7,146

📅 上线2020/12/20

🔄 更新2026/7/12

📥 收录2026/4/20

FinGPT

开源⭐ 21k↑+14

github.com/AI4Finance-Foundation/FinGPT

金融大语言模型，4.4K+ stars。开源金融大语言模型，金融领域 LLM 微调、训练和应用开发的完整方案

🎯大模型微调与训练、金融 AI 应用与量化分析

#chatgpt#金融#fingpt#fintech+1

语言Jupyter Notebook

🍴 Forks2,961

📅 上线2023/2/12

🔄 更新2026/7/12

📥 收录2026/5/20

Kedro

开源⭐ 11k

github.com/kedro-org/kedro

开源数据工程框架，提供标准化的数据管道开发流程，支持数据验证、版本控制和可重复实验，是构建生产级 ML 管道的最佳实践工具。

🎯标准化数据管道开发和 ML 项目工程管理

#data-engineering#ml-pipeline#Python

语言Python

🍴 Forks1,050

🔄 更新2026/7/10

📥 收录2026/6/7

Firecrawl

免费+付费⭐ 150k↑+479

github.com/firecrawl/firecrawl

AI 友好的网页抓取 API，支持 URL → Markdown/结构化数据，110K+ stars。专为 LLM 应用设计，自动处理 JS 渲染、分页、反爬，是 RAG 系统的理想数据源

🎯网页自动化与数据采集

#爬虫#API#LLM数据源#Markdown

语言TypeScript

🍴 Forks8,555

📅 上线2024/4/16

🔄 更新2026/7/12

📥 收录2026/4/13

Scrapling

开源⭐ 69k↑+116

github.com/D4Vinci/Scrapling

自适应 Web 爬取框架，52K+ stars。从单请求到全规模爬取全覆盖，智能处理反爬、动态渲染和复杂页面结构，是 AI Agent 数据采集的瑞士军刀

🎯AI Agent 数据采集、舆情分析数据源爬取、竞品监控自动化

#Web 爬取#自适应#反爬#数据采集

语言Python

🍴 Forks6,845

🔄 更新2026/7/12

📥 收录2026/5/22

TrendRadar

开源⭐ 60k↑+19

github.com/sansan0/TrendRadar

AI 驱动的舆情监控与趋势分析助手，58K+ stars。支持多平台信息聚合、RSS 订阅、智能预警，帮助打破信息茧房，还原舆情全貌并预测未来走向，辅助决策

🎯AI 舆情监控、行业趋势分析与情报收集系统

#舆情分析#多平台聚合#RSS#智能预警+1

语言Python

🍴 Forks24,787

🔄 更新2026/7/12

📥 收录2026/5/22

← 浏览全部 1282 个工具