核心要点

  • 先澄清需求与指标:目标用户、QPS/并发、首 Token 延迟 TTFT 与每 Token 延迟 TPOT、有害率、满意度与成本预算

  • 分层拆解:对齐模型(预训练→SFT→RLHF)+ 推理服务KV Cache/连续批处理/量化)+ 会话与上下文管理 + 安全护栏 + RAG 接知识

  • 强调推理服务是工程核心:用 vLLM 类引擎做连续批处理PagedAttention,KV Cache 复用与量化压成本

  • 设计评测与反馈飞轮:离线基准 + 人工/LLM 评审 + 线上 A/B 与点赞点踩回流,多租户限流计费兜底

标准回答

需求与指标

先澄清:面向 C 端聊天还是 B 端 API?预期并发与 QPS、上下文长度、可接受成本。核心指标:TTFT(首 Token 延迟)、TPOT(每 Token 延迟)、端到端满意度、有害内容率、单次会话成本。

整体架构

网关(鉴权/限流/计费)→ 安全前置审核 → 会话编排(拼 System Prompt + 历史 + RAG 上下文)→ 推理服务集群 → 安全后置审核 → 流式返回。旁路接评测与日志飞轮。

模型与对齐

基座走预训练→SFT→RLHF 三段对齐,得到既能遵循指令又安全的 Chat 模型;可叠加 DPO 简化奖励建模。强模型做主力,蒸馏出小模型分担简单请求。

推理服务

工程重心。用 vLLM 类引擎做连续批处理 + PagedAttention 提升吞吐;KV Cache 跨请求/前缀复用降低 TTFT;INT8/FP8 量化压显存与成本;长对话靠分页 KV 与上下文截断/摘要控制窗口。

上下文与 RAG

会话管理负责多轮历史的截断、摘要与记忆;知识类问题接 RAG,向量召回 + rerank 注入上下文以降低幻觉并可溯源。

安全与评测

输入输出双向审核 + 越狱检测 + 敏感词与策略护栏。评测飞轮:离线基准 + LLM/人工评审 + 线上 A/B 与点赞点踩回流,持续做 SFT/偏好数据迭代。多租户做配额、限流与按 Token 计费。

常见误区

⚠️ 常见踩坑

只谈模型不谈推理服务与延迟:面试核心其实是 TTFT/TPOT、KV Cache 与连续批处理这类工程权衡;同时别忽略安全护栏与评测飞轮,否则产品无法长期迭代。

追问

追问 1如何同时优化 TTFT 和整体吞吐?两者会冲突吗?

会冲突:大 batch 提升吞吐但拉高单请求 TTFT。常用连续批处理动态拼批兼顾两者;用前缀/系统提示 KV Cache 复用直接削减 TTFT;对延迟敏感请求与吞吐优先请求分队列、甚至分集群;用 chunked prefill 把长 Prefill 切片与 Decode 交错,避免长请求阻塞首 Token。

追问 2面对百万级日活,如何控制推理成本?

分级路由:简单请求走蒸馏小模型或缓存,复杂请求才上大模型;FP8/INT8 量化与 KV Cache 复用降单次成本;语义缓存命中高频问答;按租户限流与配额防滥用;离线监控每千 Token 成本与 GPU 利用率,弹性伸缩并用 Spot 实例。

追问 3上线后如何建立评测与反馈飞轮,发现并修复回归?

离线维护固定基准集(能力 + 安全 + 拒答)+ LLM 评审打分;线上收集点赞点踩、重写率、对话时长等隐式信号;做模型/Prompt 版本的 A/B 与影子流量对比;把负样本沉淀成 SFT/偏好数据回流训练,并对安全有害率设告警阈值防回归。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。