标准回答
Demo 与生产的差距
Demo 只要拼对 prompt 就能演示;生产要面对质量、新鲜度、延迟、成本、安全与可观测性的全面工程化。
检索质量
召回是 RAG 上限。要建评测集,用 RAGAS 等度量 context recall/precision 与答案忠实度;优化 chunk 切分、混合检索(BM25+向量)、cross-encoder rerank、查询改写。检索差则生成再强也救不回。
数据新鲜与 ingestion
搭建可靠的增量摄取管道:变更检测、去重、增量更新索引、失败重试与回填,避免回答过期内容。
可信与护栏
强制引用来源,便于核查;检索置信不足时拒答而非硬编。输入输出加护栏:PII/敏感内容过滤、越权数据隔离(多租户权限随检索下推)、prompt 注入防护。
延迟、成本与监控
设延迟预算,用语义缓存命中高频问题、prefix caching 复用系统提示、rerank 控 top-K、按难度分级路由模型。上线后持续监控幻觉率、检索命中、答案满意度,回流数据反哺优化。
参见 RAG 架构指南。
追问
追问 1:怎么评测一个 RAG 系统的质量?
追问 2:如何降低 RAG 的幻觉?
先提检索质量(混合检索+rerank 确保给到正确依据),prompt 中要求「仅依据上下文作答、无依据则拒答」并强制引用;输出做忠实度校验(答案句子能否回溯到来源);上线后监控幻觉率并用反馈回流持续优化。
追问 3:RAG 延迟太高怎么优化?
设延迟预算逐段拆解。检索侧:缓存高频查询(语义缓存)、控 top-K、用更快的 ANN 索引;生成侧:prefix caching 复用系统提示、流式输出降感知延迟、按难度分级路由小/大模型;并行化检索与重排,去掉非必要的多轮调用。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。
🛠️ AI 工具