data-juicer

开源数据处理6.5k

面向基础模型的数据处理工具包,提供数据清洗、去重、过滤、增强等全流程处理能力。支持多模态数据处理,是构建高质量 AI 训练数据集的利器。6.4K+ stars。

🎯适用场景:AI 训练数据清洗与增强、多模态数据集构建、数据质量评估

#Data#Data-analysis#Data-pipeline#Data-processing

📥 收录于 2026/6/3

📊 仓库数据

Stars6,479
Forks374
语言Python
更新2026/6/3

优点

  • 全流程数据处理能力
  • 支持多模态数据
  • 丰富的算子库

⚠️ 限制

  • 配置复杂需要学习
  • 大规模处理需集群
  • 文档以英文为主

🔗 相关工具

Airbyte

开源21k

github.com/airbytehq/airbyte

Airbyte 是一个开源的数据移动平台,用于 ELT 管道和 AI Agent 的数据集成。支持从 API、数据库、文件到数据仓库、数据湖和 AI 应用的数据同步,支持自托管和云端部署。21K+ stars。

🎯AI 应用数据集成、数据仓库同步、跨系统数据迁移

#Bigquery#Change-data-capture#Data#Data-analysis
语言Python
🍴 Forks5,202
🔄 更新2026/6/3
📥 收录2026/6/3

snowplow

开源7.0k

github.com/snowplow/snowplow

领先的用户行为数据基础设施平台,支持全渠道数据采集、实时处理和 AI 分析。可追踪用户与 AI 产品的交互行为,为模型优化提供数据支撑。7K+ stars。

🎯AI 产品用户行为分析、模型使用数据采集、产品优化决策

#Analytics#Data#Data-collection#Data-pipeline
语言Scala
🍴 Forks1,177
🔄 更新2026/6/1
📥 收录2026/6/3

ShardingSphere

开源21k

github.com/apache/shardingsphere

ShardingSphere 是 Apache 顶级项目,提供分布式 SQL 能力,支持分库分表、读写分离、数据加密、分布式事务等功能。为大数据场景下的数据库可扩展性和安全性提供解决方案。20K+ stars。

🎯大规模数据库分片、读写分离、数据加密和分布式事务

#Bigdata#Data-encryption#Data-pipeline#Database
语言Java
🍴 Forks6,894
🔄 更新2026/6/3
📥 收录2026/6/3

debezium

开源13k↑+2

github.com/debezium/debezium

开源变更数据捕获(CDC)平台,支持多种数据库的实时数据变更流。可与 Apache Kafka 无缝集成,将数据库变更转化为事件流,适用于 AI 数据管道和实时数据同步场景。12.7K+ stars。

🎯AI 训练数据实时同步、数据库变更事件流、多数据源聚合管道

#Apache-kafka#Cdc#Change-data-capture#Data-pipeline
语言Java
🍴 Forks2,946
🔄 更新2026/6/3
📥 收录2026/6/3

TradingAgents

开源83k↑+64

github.com/TauricResearch/TradingAgents

多 Agent 金融交易框架,51,885+ stars。基于多 Agent 协作的金融交易决策框架,模拟分析师、风控师、交易员等角色协同制定交易策略

🎯多 Agent 金融交易决策、策略回测与量化投资研究

#金融交易#多Agent#量化投资#决策框架
语言Python
🍴 Forks16,027
📅 上线2024/12/28
🔄 更新2026/6/3
📥 收录2026/4/20

OpenBB Platform

开源69k↑+19

github.com/openbb-finance/openbb

金融数据分析平台,66,139+ stars。开源金融数据基础设施,提供股票、加密货币、宏观经济等全方位数据查询和分析能力,支持 Python SDK 和终端使用

🎯金融数据采集与分析、股票与宏观数据查询

#金融数据#股票分析#Python#开源
语言Python
🍴 Forks6,912
📅 上线2020/12/20
🔄 更新2026/6/3
📥 收录2026/4/20