snowplow
领先的用户行为数据基础设施平台,支持全渠道数据采集、实时处理和 AI 分析。可追踪用户与 AI 产品的交互行为,为模型优化提供数据支撑。7K+ stars。
🎯适用场景:AI 产品用户行为分析、模型使用数据采集、产品优化决策
📥 收录于 2026/6/3
📊 仓库数据
✅ 优点
- •全渠道数据采集
- •实时处理能力强
- •支持自建部署保护隐私
⚠️ 限制
- •部署维护成本较高
- •配置复杂度大
- •需要数据分析能力
🔗 相关工具
data-juicer
github.com/datajuicer/data-juicer
面向基础模型的数据处理工具包,提供数据清洗、去重、过滤、增强等全流程处理能力。支持多模态数据处理,是构建高质量 AI 训练数据集的利器。6.4K+ stars。
🎯AI 训练数据清洗与增强、多模态数据集构建、数据质量评估
Airbyte
github.com/airbytehq/airbyte
Airbyte 是一个开源的数据移动平台,用于 ELT 管道和 AI Agent 的数据集成。支持从 API、数据库、文件到数据仓库、数据湖和 AI 应用的数据同步,支持自托管和云端部署。21K+ stars。
🎯AI 应用数据集成、数据仓库同步、跨系统数据迁移
ShardingSphere
github.com/apache/shardingsphere
ShardingSphere 是 Apache 顶级项目,提供分布式 SQL 能力,支持分库分表、读写分离、数据加密、分布式事务等功能。为大数据场景下的数据库可扩展性和安全性提供解决方案。20K+ stars。
🎯大规模数据库分片、读写分离、数据加密和分布式事务
debezium
github.com/debezium/debezium
开源变更数据捕获(CDC)平台,支持多种数据库的实时数据变更流。可与 Apache Kafka 无缝集成,将数据库变更转化为事件流,适用于 AI 数据管道和实时数据同步场景。12.7K+ stars。
🎯AI 训练数据实时同步、数据库变更事件流、多数据源聚合管道
TradingAgents
github.com/TauricResearch/TradingAgents
多 Agent 金融交易框架,51,885+ stars。基于多 Agent 协作的金融交易决策框架,模拟分析师、风控师、交易员等角色协同制定交易策略
🎯多 Agent 金融交易决策、策略回测与量化投资研究
OpenBB Platform
github.com/openbb-finance/openbb
金融数据分析平台,66,139+ stars。开源金融数据基础设施,提供股票、加密货币、宏观经济等全方位数据查询和分析能力,支持 Python SDK 和终端使用
🎯金融数据采集与分析、股票与宏观数据查询