Easy Dataset

开源数据处理 › 爬虫与采集⭐ 15k↑+6

强大的 LLM 微调数据集创建工具，14K+ stars。支持 RAG 和评测数据集的生成，是模型微调数据准备的效率工具

🎯适用场景：LLM 微调数据准备、RAG 数据集生成、模型评测数据构建

#数据集创建#LLM 微调#RAG#评测

📥 收录于 2026/5/21

访问工具

📊 仓库数据

Stars14,630

Forks1,494

语言JavaScript

更新2026/7/10

📈 Stars 变化 ↑12 小时 +6· 统计区间 7/10 12:08 → 7/11 00:11（12 小时）

✅ 优点

•降低微调数据准备门槛，非技术人员也能创建高质量数据集
•支持 RAG 和评测数据集，覆盖模型训练全流程

⚠️ 限制

•数据集质量依赖原始素材，需要用户提供足够的数据源
•对超大规模数据集的处理效率有限

🔗 相关工具

Firecrawl

免费+付费⭐ 149k↑+280

github.com/firecrawl/firecrawl

AI 友好的网页抓取 API，支持 URL → Markdown/结构化数据，110K+ stars。专为 LLM 应用设计，自动处理 JS 渲染、分页、反爬，是 RAG 系统的理想数据源

🎯网页自动化与数据采集

#爬虫#API#LLM数据源#Markdown

语言TypeScript

🍴 Forks8,508

📅 上线2024/4/16

🔄 更新2026/7/11

📥 收录2026/4/13

OpenBB Platform

开源⭐ 70k↑+19

github.com/openbb-finance/openbb

金融数据分析平台，66,139+ stars。开源金融数据基础设施，提供股票、加密货币、宏观经济等全方位数据查询和分析能力，支持 Python SDK 和终端使用

🎯金融数据采集与分析、股票与宏观数据查询

#金融数据#股票分析#Python#开源

语言Python

🍴 Forks7,142

📅 上线2020/12/20

🔄 更新2026/7/10

📥 收录2026/4/20

Scrapling

开源⭐ 69k↑+84

github.com/D4Vinci/Scrapling

自适应 Web 爬取框架，52K+ stars。从单请求到全规模爬取全覆盖，智能处理反爬、动态渲染和复杂页面结构，是 AI Agent 数据采集的瑞士军刀

🎯AI Agent 数据采集、舆情分析数据源爬取、竞品监控自动化

#Web 爬取#自适应#反爬#数据采集

语言Python

🍴 Forks6,827

🔄 更新2026/7/10

📥 收录2026/5/22

TrendRadar

开源⭐ 60k↑+18

github.com/sansan0/TrendRadar

AI 驱动的舆情监控与趋势分析助手，58K+ stars。支持多平台信息聚合、RSS 订阅、智能预警，帮助打破信息茧房，还原舆情全貌并预测未来走向，辅助决策

🎯AI 舆情监控、行业趋势分析与情报收集系统

#舆情分析#多平台聚合#RSS#智能预警+1

语言Python

🍴 Forks24,781

🔄 更新2026/7/10

📥 收录2026/5/22

MediaCrawler

开源⭐ 56k↑+49

github.com/NanmiCoder/MediaCrawler

中文社交媒体爬虫工具，50K+ stars。支持小红书、抖音、快手、B 站、微博、贴吧、知乎等平台的笔记/视频/评论爬取，是中文互联网数据采集的标杆项目

🎯数据爬取与 ETL 处理

#爬虫#社交媒体#中文互联网#数据采集

语言Python

🍴 Forks11,294

🔄 更新2026/7/10

📥 收录2026/6/4

Agent Reach

开源⭐ 54k↑+372

github.com/Panniantong/Agent-Reach

让你的 AI Agent 拥有浏览全网的能力——一个 CLI 即可读取和搜索 Twitter、Reddit、YouTube、GitHub、B站、小红书等平台内容，无需 API 费用。

🎯AI Agent 的互联网浏览器——让大模型直接读取社交媒体和公开网页内容，适合需要实时数据采集的智能体

#网络爬虫#社交媒体#多平台#AI Agent

语言Python

🍴 Forks4,484

🔄 更新2026/7/11

📥 收录2026/5/28

← 浏览全部 1267 个工具