LangWatch

开源推理 & 评测3.3k

LLM 评测和 AI Agent 测试平台,提供全面的评测工具链,保障 AI 应用上线质量

🎯适用场景:LLM 应用评测和 AI Agent 测试平台,保障上线质量

#llm-evaluation#testing#observability#agent-testing

📥 收录于 2026/6/6

📊 仓库数据

Stars3,290
语言TypeScript

优点

  • 专注 LLM 评测的专业平台
  • 支持多种评测指标
  • 可视化的评测仪表盘

⚠️ 限制

  • 项目较新,功能仍在扩展
  • 学习曲线存在

🔗 相关工具

Ragas

开源14k↑+2

github.com/vibrantlabsai/ragas

LLM 应用评估框架,提供 RAG 管道的自动化评测能力,支持答案相关性、上下文忠实度、幻觉检测等关键指标,帮助开发者量化和优化 LLM 应用质量。(14K+ stars)

🎯LLM 应用质量评估、RAG 管道评测、AI 产品验收测试

#llm-evaluation#rag#llmops#metrics+1
语言Python
🍴 Forks1,465
🔄 更新2026/6/6
📥 收录2026/5/24

Grafana

开源74k↑+3

github.com/grafana/grafana

开源可观测性和数据可视化平台。支持可视化指标、日志、追踪等多源数据,兼容 Prometheus、Loki、Elasticsearch、InfluxDB 等后端。是 MLOps 团队监控模型和基础设施的首选仪表盘工具。

🎯MLOps 模型监控仪表盘、AI 服务指标可视化、训练任务实时追踪

#observability#monitoring#dashboard#metrics+1
语言TypeScript
🍴 Forks14,019
🔄 更新2026/6/6
📥 收录2026/5/27

Nightingale

开源13k↑+2

github.com/ccfos/nightingale

开源监控告警平台,定位为「告警和监控领域的 Grafana」。支持多数据源接入、灵活的告警规则和通知策略,适合需要统一监控告警平台的 AI/MLOps 团队。

🎯AI 模型性能告警、训练任务异常通知、多集群统一监控

#monitoring#alerting#observability#metrics
语言Go
🍴 Forks1,720
🔄 更新2026/6/6
📥 收录2026/5/27

TensorZero

开源11k↑+2

github.com/tensorzero/tensorzero

开源 LLMOps 平台,统一 LLM 网关、可观测性、评估和微调能力,提供从实验到生产的端到端基础设施,帮助企业高效管理多模型 LLM 应用。(11K+ stars)

🎯LLM 生产环境管理、多模型路由、A/B 测试和效果评估

#llmops#llm-gateway#observability#evaluation+1
语言Rust
🍴 Forks835
🔄 更新2026/6/5
📥 收录2026/5/24

HyperDX

开源9.6k↑+1

github.com/hyperdxio/hyperdx

开源可观测性平台,统一整合日志、指标、追踪、会话回放和错误追踪。基于 OpenTelemetry 标准,适合需要全栈可观测性的 AI 应用团队,一站式排查线上问题。

🎯AI 应用全栈可观测性、用户会话回放辅助调试、日志与追踪关联分析

#observability#logs#traces#session-replay+1
语言TypeScript
🍴 Forks408
🔄 更新2026/6/6
📥 收录2026/5/27

Helicone

开源5.8k↑+1

github.com/Helicone/helicone

开源 LLM 可观测性平台,一行代码即可监控、评估和实验。YC W23 孵化,支持 LangChain、LlamaIndex 等主流框架的追踪与成本分析。5.7K+ stars。

🎯LLM 应用可观测性、成本追踪、A/B 实验评估

#ai-observability#llm-evaluation#analytics#langchain
语言TypeScript
🍴 Forks593
🔄 更新2026/6/5
📥 收录2026/6/3