Daft

开源数据处理5.5k

AI 多模态数据引擎,5.5K+ stars。高性能分布式数据框架,专为 AI 工作负载设计——处理图像、音频、视频和结构化数据。支持 Arrow 生态、Iceberg 数据湖,是 AI 数据管道的高效选择

🎯适用场景:企业知识库问答与 RAG 检索、网页自动化与数据采集

#数据引擎#多模态#分布式#ETL

📊 仓库数据

Stars5,499
Forks350
语言Rust
上线2022/7/14
更新2026/5/23

优点

  • AI 多模态数据原生支持
  • Arrow 生态兼容
  • 分布式高性能
  • Iceberg 数据湖集成

⚠️ 限制

  • 社区规模较小
  • 文档不如 Spark 完善
  • 部分高级功能待开发

🔗 相关工具

label-studio

开源27k↑+1

github.com/humansignal/label-studio

数据标注工具,6K+ stars。多类型数据标注和注释工具,支持图像、文本、音频、视频的标准化标注输出

🎯 多模态数据标注、训练数据集构建与质检

#数据标注#MLOps#计算机视觉#多模态
语言TypeScript
🍴 Forks3,537
📅 上线2019/6/19
🔄 更新2026/5/23

TradingAgents

开源79k↑+82

github.com/TauricResearch/TradingAgents

多 Agent 金融交易框架,51,885+ stars。基于多 Agent 协作的金融交易决策框架,模拟分析师、风控师、交易员等角色协同制定交易策略

🎯 多 Agent 金融交易决策、策略回测与量化投资研究

#金融交易#多Agent#量化投资#决策框架
语言Python
🍴 Forks15,376
📅 上线2024/12/28
🔄 更新2026/5/23

OpenBB Platform

开源68k↑+7

github.com/openbb-finance/openbb

金融数据分析平台,66,139+ stars。开源金融数据基础设施,提供股票、加密货币、宏观经济等全方位数据查询和分析能力,支持 Python SDK 和终端使用

🎯 金融数据采集与分析、股票与宏观数据查询

#金融数据#股票分析#Python#开源
语言Python
🍴 Forks6,847
📅 上线2020/12/20
🔄 更新2026/5/23

Crawl4AI

开源66k↑+11

github.com/unclecode/crawl4ai

面向 AI Agent 的开源 Web 爬取框架,支持网页爬虫、Markdown 生成、JavaScript 执行和 LLM 结构化提取。为 Agent 提供可靠的 Web 数据获取能力,支持异步爬取、智能去重和内容清洗,是构建 RAG 系统和 Agent 知识库的关键基础设施

🎯 企业知识库问答与 RAG 检索、网页自动化与数据采集

#开源#Web 爬取#Agent 基础设施#Markdown
语言Python
🍴 Forks6,757
📅 上线2024/5/9
🔄 更新2026/5/23

TrendRadar

开源58k↑+11

github.com/sansan0/TrendRadar

AI 驱动的舆情监控与趋势分析助手,58K+ stars。支持多平台信息聚合、RSS 订阅、智能预警,帮助打破信息茧房,还原舆情全貌并预测未来走向,辅助决策

🎯 AI 舆情监控、行业趋势分析与情报收集系统

#舆情分析#多平台聚合#RSS#智能预警+1
语言Python
🍴 Forks24,382
🔄 更新2026/5/23

Scrapling

开源54k↑+81

github.com/D4Vinci/Scrapling

自适应 Web 爬取框架,52K+ stars。从单请求到全规模爬取全覆盖,智能处理反爬、动态渲染和复杂页面结构,是 AI Agent 数据采集的瑞士军刀

🎯 AI Agent 数据采集、舆情分析数据源爬取、竞品监控自动化

#Web 爬取#自适应#反爬#数据采集
语言Python
🍴 Forks5,137
🔄 更新2026/5/23