ZenML
一站式 AI/ML 平台,5.4K+ stars。从 Pipeline 到 Agent 的全流程管理——支持数据处理、模型训练、评估、部署和监控。Python 原生,提供声明式 Pipeline API 和可视化仪表盘
🎯适用场景:端到端 ML Pipeline 管理——适用于需要规范化 ML 流程的团队,将数据处理、训练、评估、部署整合为可重复的流水线。
📥 收录于 2026/5/30
📊 仓库数据
📈 上次抓取以来 ↑+1 ⭐
✅ 优点
- •声明式 API,Pipeline 定义简洁易读
- •支持多云部署(AWS/GCP/Azure),灵活迁移
- •内置可视化仪表盘,便于监控和调试
⚠️ 限制
- •功能覆盖广但深度不及专项工具
- •企业版功能需付费
🔗 相关工具
vLLM
github.com/vllm-project/vllm
高吞吐 LLM 推理引擎,77,418+ stars。采用 PagedAttention 显存优化技术,吞吐量比 HuggingFace Transformers 高 24 倍,是生产环境部署大模型推理的首选方案,支持 OpenAI 兼容 API
🎯生产环境模型推理服务
Netdata
github.com/netdata/netdata
AI 全栈可观测性平台,78,515+ stars。实时监控服务器性能、应用指标和网络流量,内置 AI 异常检测引擎,自动发现并预警系统问题。零配置、开箱即用,每秒采集数千指标,是最轻量的基础设施监控方案。
🎯服务器与基础设施实时监控、AI 异常检测预警
Grafana
github.com/grafana/grafana
开源可观测性和数据可视化平台。支持可视化指标、日志、追踪等多源数据,兼容 Prometheus、Loki、Elasticsearch、InfluxDB 等后端。是 MLOps 团队监控模型和基础设施的首选仪表盘工具。
🎯MLOps 模型监控仪表盘、AI 服务指标可视化、训练任务实时追踪
Prometheus
github.com/prometheus/prometheus
开源监控系统和时序数据库,CNCF 毕业项目。采用多维数据模型和 PromQL 查询语言,是云原生和 AI 基础设施监控的事实标准,可与 Grafana 无缝集成。
🎯AI 服务 GPU 使用率监控、模型推理延迟追踪、Kubernetes 集群资源监控
RTK
github.com/rtk-ai/rtk
CLI 代理层,减少 60-90% 的 LLM token 消耗。Rust 编写的单二进制文件,零依赖,支持 Claude Code、Codex、Cursor 等主流 AI 编码工具。通过本地代理缓存和智能去重,大幅降低日常开发中的 token 成本
🎯AI 辅助编程与代码生成
LiteLLM
github.com/BerriAI/litellm
100+ LLM API 统一 SDK,48K+ stars。统一的 LLM API 代理和 SDK,支持 OpenAI、Claude、Gemini 等所有主流模型,一个接口调用所有模型,是 AI 编码的瑞士军刀
🎯多模型 API 统一接入与路由