核心要点

  • 记录的不只是指标,还要含 git commit、依赖与数据版本——否则无法真正复现一次 run

  • 价值在于横向对比:几十组超参并排看,快速定位 Pareto 最优而非凭记忆

  • 与下游打通:实验达标后自动 register 到模型注册表,再触发部署,形成链路

  • spreadsheet 手抄、notebook 覆盖旧结果是典型反模式,无法检索也无法审计

简要回答

实验跟踪(Experiment Tracking) 自动记录 ML 实验的完整上下文:

记录内容

  • Parameters学习率batch size、模型结构
  • Metrics:train/val loss、AUC(按 step/epoch)
  • Artifacts:模型权重、Checkpoint、混淆矩阵图
  • Environment:git commit、依赖、Docker 镜像 ID
  • Tags/Notes:实验目的、结论

为何重要

  1. 可复现:三月后能复现今日最佳 run
  2. 对比:并排比较 50 组超参,找 Pareto 最优
  3. 协作:团队共享实验看板,避免重复踩坑
  4. 合规:审计「该模型如何训练出来」
  5. 自动化:与 HPO、CI 集成,达标自动注册

工具MLflow、W&B、Neptune;

反模式:spreadsheet 手抄 metric、本地 checkpoint 无命名规范、notebook 覆盖旧结果

标准回答

实验跟踪(Experiment Tracking) 自动记录 ML 实验的完整上下文:

记录内容

  • Parameters:学习率、batch size、模型结构
  • Metrics:train/val loss、AUC(按 step/epoch)
  • Artifacts:模型权重、Checkpoint、混淆矩阵图
  • Environment:git commit、依赖、Docker 镜像 ID
  • Tags/Notes:实验目的、结论

为何重要

  1. 可复现:三月后能复现今日最佳 run
  2. 对比:并排比较 50 组超参,找 Pareto 最优
  3. 协作:团队共享实验看板,避免重复踩坑
  4. 合规:审计「该模型如何训练出来」
  5. 自动化:与 HPO、CI 集成,达标自动注册

工具:MLflow、W&B、Neptune。

反模式:spreadsheet 手抄 metric、本地 checkpoint 无命名规范、notebook 覆盖旧结果。详见 MLOps 入门实验管理

常见误区

⚠️ 常见踩坑

只记 accuracy 不记数据和代码版本;实验名随意无法检索;不与 CI 集成。

追问

追问 1实验跟踪和模型注册如何衔接?

实验跟踪记录每一次 run(含大量失败试错);当某个 run 达到上线标准后,将其产出的模型 artifact register 到模型注册表,并带上 run id 形成 lineage。注册表只收候选上线版本并管理阶段流转,二者是「全量记录」与「精选治理」的关系。

追问 2分布式训练如何记录指标?

只让 rank 0(主进程)写日志,避免多副本重复打点;分布式指标(如 loss)先用 all-reduce 聚合再记录,确保是全局值而非单卡值;系统/GPU 利用率可按 rank 分别记录便于排查掉队节点。

追问 3敏感数据实验如何跟踪?

只记录元数据与统计量,不把原始样本写入跟踪系统;用数据哈希或版本号代替明文引用;跟踪服务端做访问控制与加密,并在合规要求下脱敏或仅在内网/私有部署实例中保存。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。