核心要点

  • 没有基线就无法判断后续改进是否真的有效

  • 基线要简单:多数类/规则/线性模型/现成预训练模型

  • 作用:跑通数据与评估流程、量化可提升空间、防过度工程

  • 基线必须与目标模型用同一套数据切分和评估指标对比

标准回答

Baseline 是一切改进的参照系,没有它就无法量化"做得好不好"。

为什么要先做

  • 跑通端到端流程:数据加载、切分、特征、评估管线先全部打通,暴露数据泄漏、标签错误等问题。
  • 建立参照系:后续复杂模型必须显著超过基线才值得上线。
  • 防过度复杂:很多场景一个 LightGBM 或线性模型就够好,避免一上来就上重型方案。

如何设计

  • 多数类/常数基线:分类直接预测最多的类,回归预测均值——这是绝对下限。
  • 规则基线:用业务专家规则。
  • 简单模型基线:线性回归/逻辑回归、LightGBM。
  • 现成模型基线:直接调用预训练模型或现成 API。

关键:基线和目标模型必须用完全相同的数据切分和评估指标对比,否则提升数字不可信。先快速拿到一个"能用但不强"的版本,再迭代。

常见误区

⚠️ 常见踩坑

跳过基线直接上复杂模型,导致无法判断提升来自模型还是数据/流程;或基线与目标模型用不同的数据切分/指标对比,使得"提升"是假象。

追问

追问 1复杂模型只比 Baseline 高一点点,该怎么决策?

要权衡边际收益与成本:复杂模型带来的训练/推理/维护成本是否值得这点提升。如果提升在统计噪声范围内或对业务指标无实质影响,优先保留简单基线,简单意味着更易维护、更稳定、更可解释。

追问 2基线分类任务用 accuracy,发现 95% 很高,能说明模型好吗?

不能。若类别极不平衡(95% 是负类),多数类基线直接预测负类就有 95% accuracy。这时该看 Precision/Recall/F1 或 AUC,并用多数类基线作对照,才知道模型是否真学到东西。

追问 3LLM/生成式任务怎么设计 Baseline?

可用 zero-shot 直接 prompt 一个通用模型、或简单检索拼接、或规则模板作为基线,再对比 few-shotRAG微调等更复杂方案是否显著更优,避免无依据地堆叠复杂 pipeline。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。