核心要点

  • 能讲 Tracing:用 trace/span 记录每一步(LLM 调用、检索、工具调用)的输入输出、耗时与父子关系,端到端可回放

  • 能讲核心指标:Token 用量与成本、延迟(含首 Token 时延)、错误率、工具成功率、缓存命中率

  • 能讲离线评测:构建带标注的评测集做回归,RAGRAGAS 等指标(忠实度、上下文召回、答案相关性)

  • 能讲线上反馈:收集用户点赞/点踩与隐式信号,LLM-as-judge 自动评分,形成数据飞轮持续优化

标准回答

Tracing(链路追踪)(独占一行)

LLM/Agent 应用是多步、非确定的,必须把一次请求拆成 trace,下面挂多个 span——每个 LLM 调用、检索、工具调用都是一个 span,记录其输入输出、耗时、Token、错误与父子关系。这样才能回放一次 ReAct 循环、定位是检索召回差还是模型推理错。

监控指标

Token 用量与成本、端到端延迟与首 Token 时延、错误率与重试次数、工具调用成功率、缓存命中率。按模型/路由/用户维度聚合,设置告警。

离线评测

维护带标注的评测数据集做回归测试,防止改 prompt/换模型造成退化。RAG 场景用 RAGAS 等度量忠实度(Faithfulness)、上下文召回、答案相关性;也可用 LLM-as-judge 打分。

线上反馈闭环

采集用户显式反馈(点赞/点踩、人工标注)与隐式信号(是否追问、是否复制),回流为评测样本与微调数据,形成持续改进的数据飞轮(参考 生产环境可观测性)。

常见误区

⚠️ 常见踩坑

别只盯成本和延迟这类系统指标,而不评测「答得对不对」——LLM 应用的质量回归只能靠评测集 + 人工/LLM-as-judge 打分捕捉,光看日志看不出幻觉准确率下降。

追问

追问 1RAGAS 主要评估哪些维度?

常用:Faithfulness(答案是否忠于检索上下文、有无幻觉)、Context Recall/Precision(检索是否召回了支撑答案的内容)、Answer Relevance(答案是否切题)。可分别定位检索端和生成端问题。

追问 2LLM-as-judge 评测有哪些坑?如何缓解?

存在位置偏好、长度偏好、与人类标注不一致等问题。缓解:给清晰评分 rubric、做位置随机化与多次投票、用更强模型做裁判,并定期用人工标注校准其可靠性。

追问 3生产中如何控制 Tracing 的存储与开销?

对全量请求采样记录、对错误与高延迟请求全量保留;对超长输入输出做截断或脱敏存储;异步上报避免阻塞主链路,并设置数据保留期分级归档。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。

🛠️ AI 工具

  • Langfuse

    🪢 开源 LLM 工程平台,28K+ stars。提供 LLM 可观测性、指标监控、评估、提示词管理、playground 等功能,是 LLM 应用开发和调试的基础设施

  • Ragas

    LLM 应用评估框架,提供 RAG 管道的自动化评测能力,支持答案相关性、上下文忠实度、幻觉检测等关键指标,帮助开发者量化和优化 LLM 应用质量。(14K+ stars)

  • Recall

    为 Claude Code 提供持久化记忆能力,完全离线运行,避免每次会话重复解释项目上下文。468 stars。