A/B 测试

两个版本比效果

A/B 测试是将真实流量随机分配给两个版本、通过统计检验判断哪个版本更优的受控实验方法。在 LLM 产品迭代中，它把「感觉更好」转化为可量化决策，是模型替换、Prompt 优化与 RAG 调优的标准验证工具。

概述

A/B 测试的核心是「控制变量 + 随机分组 + 统计检验」三要素。

随机分桶：通常以用户 ID 或会话 ID 哈希取模，确保两组用户特征分布一致。
同期并行：对照组（A）与实验组（B）在同一时间窗口运行，消除时间因素干扰。
主指标先行：实验前明确 Primary Metric（如任务完成率、用户满意度），避免事后挑指标。
统计显著性：用 t 检验或 z 检验判断差异是否超出随机波动，通常要求 p < 0.05。
LLM 扩展：被测对象从 UI 元素扩展到模型版本、System Prompt、检索策略乃至 temperature 等解码参数。

发展脉络

A/B 测试的思想根源来自农业和医学领域的随机对照实验，后随互联网兴起迁移至产品优化。

1920 年代：Ronald Fisher 在农业实验中系统阐述随机对照实验（RCT）框架，奠定统计基础。
1935 年：Fisher 出版《The Design of Experiments》，首次系统描述实验设计方法论。
2000 年：Google 对搜索结果页展示数量进行 A/B 测试，被视为互联网领域规模化应用的早期里程碑。
2006 年：Google 推出 Website Optimizer 工具，将 A/B 测试能力普及至普通站长与营销人员。
2007 年：Kohavi 等人发表《Controlled experiments on the web》，系统总结大规模线上实验方法论。
2020 年代：随 LLM 产品爆发，A/B 测试延伸到 Prompt 模板、模型版本和 RAG 策略的对比评估。

工作原理

一次完整的 A/B 测试包含以下关键步骤。

定义假设：明确零假设（H₀）与备择假设（H₁），例如「新 Prompt 的任务完成率不高于旧版」。
计算样本量：基于统计功效（Power ≥ 0.8）和预期效应量（Effect Size）提前确定，不足会导致实验无效。
随机分配：哈希分桶或随机数种子保证可复现，同一用户在实验期内始终命中同一组。
数据收集：并行运行两版本，记录每个会话的指标事件。
假设检验：用 p 值与置信区间共同解读结果，切勿仅看 p < 0.05 即下结论。

在 LLM 产品中的应用

A/B 测试在 AI 工程中覆盖三类典型场景。

模型替换验证：将 GPT-4 切换到开源模型时，用线上 A/B 测试确认用户体验不下降，而非仅依赖 benchmark 分数。
Prompt 优化：对同一任务的不同写法（如 few-shot 数量、指令措辞）做对比，以真实业务指标而非主观判断定胜负。
RAG 管道调优：Chunk 大小、向量模型选型、Reranker 参数均可逐步纳入 A/B 框架，形成持续优化闭环。
离线评估互补：离线 Eval（如 RAGAS、LLM-as-Judge）快速筛选候选方案，A/B 测试在真实流量下做最终验证，两者缺一不可。
会话粘性要求：同一用户在对话中途不应被切换到不同模型，须实现用户级别的固定分组（sticky session）。

类型与变体

根据测试目的和资源约束，A/B 测试有多种扩展形式。

A/B/n 测试：实验组超过两个，同时对比多个候选版本，但需相应扩大样本量。
多变量测试（MVT）：同时测试多个变量的组合（如 Prompt 措辞 × 温度参数），适合理解交互效应，样本需求更高。
多臂老虎机（Multi-Armed Bandit）：动态调整各版本流量比例，在探索与利用间取得平衡，收敛更快但统计严谨性较弱。
影子测试（Shadow Testing）：新版本并行运行但不向用户暴露输出，仅用于安全检查和指标预估，适合高风险替换场景。
金丝雀发布（Canary Release）：与 A/B 形式相似，但目标是安全性验证而非指标对比。

局限与误区

实践中最常见的失误集中在以下几点。

样本量不足：过早停止实验会显著提升 Type I Error（误报率），是最常见的致命错误。
新奇效应（Novelty Effect）：用户因「变化本身」短暂提升互动，实验期数据虚高，须延长观测或加入衰减分析。
辛普森悖论：整体显著的结论在分群（如不同设备、用户活跃度分层）后可能方向相反，分层分析必不可少。
多重比较（Multiple Testing）：同时观察多个指标会累积误报概率，应使用 Bonferroni 校正或控制 FDR（False Discovery Rate）。
LLM 评估主观性：自动化评分（如 LLM-as-Judge）本身存在偏差，需与人工评估交叉验证，不可单独作为决策依据。

与相邻概念的区别

A/B 测试常与以下方法混淆，需要明确区分。

A/B 测试 vs 离线 Benchmark：Benchmark（如 MMLU、HumanEval）衡量模型能力上界，A/B 测试衡量真实产品场景对目标用户的实际效果，两者相关但不等价。
A/B 测试 vs 影子测试：影子测试新版本不对用户可见，偏重安全与稳定性验证；A/B 测试直接暴露用户并收集真实行为反馈。
A/B 测试 vs 多臂老虎机：A/B 测试流量比例固定、统计严谨；多臂老虎机动态调整流量、收敛更快但统计假设较弱，适用于探索阶段。
A/B 测试 vs 金丝雀发布：金丝雀发布目的是降低发布风险（先放少量流量验证稳定性），A/B 测试目的是比较版本优劣（需双组统计显著性）。

常见误解

日常交流中容易听到的简化说法，未必准确，但能帮助理解误解从何而来。

「两个版本比效果」
「AI 工程实践」
「跟 A/B 测试是一回事吗」

相关术语

和本术语关联紧密的其他词条，便于串联理解。

🎯 考点练习

含该术语的高频面试题，含标准答案与追问。

浏览全部面试题 →

延伸阅读

从知识库精选 2 篇文章，帮助深入理解该术语。

外部参考

维基百科：查看「A/B 测试」词条

本页内容为本站原创撰写；维基百科链接仅作延伸参考。