如何从零设计一个类 ChatGPT 的对话产品？

Question 1

Accepted Answer

需求与指标 先澄清：面向 C 端聊天还是 B 端 API？预期并发与 QPS、上下文长度、可接受成本。核心指标：TTFT（首 Token 延迟）、TPOT（每 Token 延迟）、端到端满意度、有害内容率、单次会话成本。 整体架构 网关（鉴权/限流/计费）→ 安全前置审核 → 会话编排（拼 System Prompt + 历史 + RAG 上下文）→ 推理服务集群 → 安全后置审核 → 流式返回。旁路接评测与日志飞轮。 模型与对齐 基座走预训练→SFT→RLHF 三段对齐，得到既能遵循指令又安全的 Chat 模型；可叠加 DPO 简化奖励建模。强模型做主力，蒸馏出小模型分担简单请求。 推理服务 工程重心。用 vLLM 类引擎做连续批处理 + PagedAttention 提升吞吐；KV Cache 跨请求/前缀复用降低 TTFT；INT8/FP8 量化压显存与成本；长对话靠分页 KV 与上下文截断/摘要控制窗口。 上下文与 RAG 会话管理负责多轮历史的截断、摘要与记忆；知识类问题接 RAG，向量召回 + rerank 注入上下文以降低幻觉并可溯源。 安全与评测 输入输出双向审核 + 越狱检测 + 敏感词与策略护栏。评测飞轮：离线基准 + LLM/人工评审 + 线上 A/B 与点赞点踩回流，持续做 SFT/偏好数据迭代。多租户做配额、限流与按 Token 计费。

Question 2

如何同时优化 TTFT 和整体吞吐？两者会冲突吗？

Accepted Answer

会冲突：大 batch 提升吞吐但拉高单请求 TTFT。常用连续批处理动态拼批兼顾两者；用前缀/系统提示 KV Cache 复用直接削减 TTFT；对延迟敏感请求与吞吐优先请求分队列、甚至分集群；用 chunked prefill 把长 Prefill 切片与 Decode 交错，避免长请求阻塞首 Token。

Question 3

面对百万级日活，如何控制推理成本？

Accepted Answer

分级路由：简单请求走蒸馏小模型或缓存，复杂请求才上大模型；FP8/INT8 量化与 KV Cache 复用降单次成本；语义缓存命中高频问答；按租户限流与配额防滥用；离线监控每千 Token 成本与 GPU 利用率，弹性伸缩并用 Spot 实例。

Question 4

上线后如何建立评测与反馈飞轮，发现并修复回归？

Accepted Answer

离线维护固定基准集（能力 + 安全 + 拒答）+ LLM 评审打分；线上收集点赞点踩、重写率、对话时长等隐式信号；做模型/Prompt 版本的 A/B 与影子流量对比；把负样本沉淀成 SFT/偏好数据回流训练，并对安全有害率设告警阈值防回归。

如何从零设计一个类 ChatGPT 的对话产品？

核心要点

标准回答

常见误区

追问

延伸学习