为什么要先做 Baseline？如何设计一个合理的 Baseline？

Question 1

Accepted Answer

Baseline 是一切改进的参照系，没有它就无法量化"做得好不好"。 为什么要先做 - 跑通端到端流程：数据加载、切分、特征、评估管线先全部打通，暴露数据泄漏、标签错误等问题。 - 建立参照系：后续复杂模型必须显著超过基线才值得上线。 - 防过度复杂：很多场景一个 LightGBM 或线性模型就够好，避免一上来就上重型方案。 如何设计 - 多数类/常数基线：分类直接预测最多的类，回归预测均值——这是绝对下限。 - 规则基线：用业务专家规则。 - 简单模型基线：线性回归/逻辑回归、LightGBM。 - 现成模型基线：直接调用预训练模型或现成 API。 关键：基线和目标模型必须用完全相同的数据切分和评估指标对比，否则提升数字不可信。先快速拿到一个"能用但不强"的版本，再迭代。

Question 2

复杂模型只比 Baseline 高一点点，该怎么决策？

Accepted Answer

要权衡边际收益与成本：复杂模型带来的训练/推理/维护成本是否值得这点提升。如果提升在统计噪声范围内或对业务指标无实质影响，优先保留简单基线，简单意味着更易维护、更稳定、更可解释。

Question 3

基线分类任务用 accuracy，发现 95% 很高，能说明模型好吗？

Accepted Answer

不能。若类别极不平衡（95% 是负类），多数类基线直接预测负类就有 95% accuracy。这时该看 Precision/Recall/F1 或 AUC，并用多数类基线作对照，才知道模型是否真学到东西。

Question 4

LLM/生成式任务怎么设计 Baseline？

Accepted Answer

可用 zero-shot 直接 prompt 一个通用模型、或简单检索拼接、或规则模板作为基线，再对比 few-shot、RAG、微调等更复杂方案是否显著更优，避免无依据地堆叠复杂 pipeline。

为什么要先做 Baseline？如何设计一个合理的 Baseline？

核心要点

标准回答

常见误区

追问

延伸学习