标准回答
Tracing(链路追踪)(独占一行)
LLM/Agent 应用是多步、非确定的,必须把一次请求拆成 trace,下面挂多个 span——每个 LLM 调用、检索、工具调用都是一个 span,记录其输入输出、耗时、Token、错误与父子关系。这样才能回放一次 ReAct 循环、定位是检索召回差还是模型推理错。
监控指标
Token 用量与成本、端到端延迟与首 Token 时延、错误率与重试次数、工具调用成功率、缓存命中率。按模型/路由/用户维度聚合,设置告警。
离线评测
维护带标注的评测数据集做回归测试,防止改 prompt/换模型造成退化。RAG 场景用 RAGAS 等度量忠实度(Faithfulness)、上下文召回、答案相关性;也可用 LLM-as-judge 打分。
线上反馈闭环
采集用户显式反馈(点赞/点踩、人工标注)与隐式信号(是否追问、是否复制),回流为评测样本与微调数据,形成持续改进的数据飞轮(参考 生产环境可观测性)。
追问
追问 1:RAGAS 主要评估哪些维度?
常用:Faithfulness(答案是否忠于检索上下文、有无幻觉)、Context Recall/Precision(检索是否召回了支撑答案的内容)、Answer Relevance(答案是否切题)。可分别定位检索端和生成端问题。
追问 2:LLM-as-judge 评测有哪些坑?如何缓解?
存在位置偏好、长度偏好、与人类标注不一致等问题。缓解:给清晰评分 rubric、做位置随机化与多次投票、用更强模型做裁判,并定期用人工标注校准其可靠性。
追问 3:生产中如何控制 Tracing 的存储与开销?
对全量请求采样记录、对错误与高延迟请求全量保留;对超长输入输出做截断或脱敏存储;异步上报避免阻塞主链路,并设置数据保留期分级归档。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。
🛠️ AI 工具