如何为 LLM / Agent 应用做可观测性（Tracing 与评测）？

Question 1

Accepted Answer

Tracing（链路追踪）（独占一行） LLM/Agent 应用是多步、非确定的，必须把一次请求拆成 trace，下面挂多个 span——每个 LLM 调用、检索、工具调用都是一个 span，记录其输入输出、耗时、Token、错误与父子关系。这样才能回放一次 ReAct 循环、定位是检索召回差还是模型推理错。 监控指标 Token 用量与成本、端到端延迟与首 Token 时延、错误率与重试次数、工具调用成功率、缓存命中率。按模型/路由/用户维度聚合，设置告警。 离线评测 维护带标注的评测数据集做回归测试，防止改 prompt/换模型造成退化。RAG 场景用 RAGAS 等度量忠实度（Faithfulness）、上下文召回、答案相关性；也可用 LLM-as-judge 打分。 线上反馈闭环 采集用户显式反馈（点赞/点踩、人工标注）与隐式信号（是否追问、是否复制），回流为评测样本与微调数据，形成持续改进的数据飞轮（参考 生产环境可观测性）。

Question 2

RAGAS 主要评估哪些维度？

Accepted Answer

常用：Faithfulness（答案是否忠于检索上下文、有无幻觉）、Context Recall/Precision（检索是否召回了支撑答案的内容）、Answer Relevance（答案是否切题）。可分别定位检索端和生成端问题。

Question 3

LLM-as-judge 评测有哪些坑？如何缓解？

Accepted Answer

存在位置偏好、长度偏好、与人类标注不一致等问题。缓解：给清晰评分 rubric、做位置随机化与多次投票、用更强模型做裁判，并定期用人工标注校准其可靠性。

Question 4

生产中如何控制 Tracing 的存储与开销？

Accepted Answer

对全量请求采样记录、对错误与高延迟请求全量保留；对超长输入输出做截断或脱敏存储；异步上报避免阻塞主链路，并设置数据保留期分级归档。

如何为 LLM / Agent 应用做可观测性（Tracing 与评测）？

核心要点

标准回答

常见误区

追问

延伸学习