LangWatch
LLM 评测和 AI Agent 测试平台,提供全面的评测工具链,保障 AI 应用上线质量
🎯适用场景:LLM 应用评测和 AI Agent 测试平台,保障上线质量
📥 收录于 2026/6/6
📊 仓库数据
✅ 优点
- •专注 LLM 评测的专业平台
- •支持多种评测指标
- •可视化的评测仪表盘
⚠️ 限制
- •项目较新,功能仍在扩展
- •学习曲线存在
🔗 相关工具
Ragas
github.com/vibrantlabsai/ragas
LLM 应用评估框架,提供 RAG 管道的自动化评测能力,支持答案相关性、上下文忠实度、幻觉检测等关键指标,帮助开发者量化和优化 LLM 应用质量。(14K+ stars)
🎯LLM 应用质量评估、RAG 管道评测、AI 产品验收测试
Grafana
github.com/grafana/grafana
开源可观测性和数据可视化平台。支持可视化指标、日志、追踪等多源数据,兼容 Prometheus、Loki、Elasticsearch、InfluxDB 等后端。是 MLOps 团队监控模型和基础设施的首选仪表盘工具。
🎯MLOps 模型监控仪表盘、AI 服务指标可视化、训练任务实时追踪
Nightingale
github.com/ccfos/nightingale
开源监控告警平台,定位为「告警和监控领域的 Grafana」。支持多数据源接入、灵活的告警规则和通知策略,适合需要统一监控告警平台的 AI/MLOps 团队。
🎯AI 模型性能告警、训练任务异常通知、多集群统一监控
TensorZero
github.com/tensorzero/tensorzero
开源 LLMOps 平台,统一 LLM 网关、可观测性、评估和微调能力,提供从实验到生产的端到端基础设施,帮助企业高效管理多模型 LLM 应用。(11K+ stars)
🎯LLM 生产环境管理、多模型路由、A/B 测试和效果评估
HyperDX
github.com/hyperdxio/hyperdx
开源可观测性平台,统一整合日志、指标、追踪、会话回放和错误追踪。基于 OpenTelemetry 标准,适合需要全栈可观测性的 AI 应用团队,一站式排查线上问题。
🎯AI 应用全栈可观测性、用户会话回放辅助调试、日志与追踪关联分析
Helicone
github.com/Helicone/helicone
开源 LLM 可观测性平台,一行代码即可监控、评估和实验。YC W23 孵化,支持 LangChain、LlamaIndex 等主流框架的追踪与成本分析。5.7K+ stars。
🎯LLM 应用可观测性、成本追踪、A/B 实验评估