核心要点
记录的不只是指标,还要含 git commit、依赖与数据版本——否则无法真正复现一次 run
价值在于横向对比:几十组超参并排看,快速定位 Pareto 最优而非凭记忆
与下游打通:实验达标后自动 register 到模型注册表,再触发部署,形成链路
spreadsheet 手抄、notebook 覆盖旧结果是典型反模式,无法检索也无法审计
简要回答
实验跟踪(Experiment Tracking) 自动记录 ML 实验的完整上下文:
记录内容:
- Parameters:学习率、batch size、模型结构
- Metrics:train/val loss、AUC(按 step/epoch)
- Artifacts:模型权重、Checkpoint、混淆矩阵图
- Environment:git commit、依赖、Docker 镜像 ID
- Tags/Notes:实验目的、结论
为何重要:
- 可复现:三月后能复现今日最佳 run
- 对比:并排比较 50 组超参,找 Pareto 最优
- 协作:团队共享实验看板,避免重复踩坑
- 合规:审计「该模型如何训练出来」
- 自动化:与 HPO、CI 集成,达标自动注册
工具:MLflow、W&B、Neptune;
反模式:spreadsheet 手抄 metric、本地 checkpoint 无命名规范、notebook 覆盖旧结果
标准回答
实验跟踪(Experiment Tracking) 自动记录 ML 实验的完整上下文:
记录内容:
- Parameters:学习率、batch size、模型结构
- Metrics:train/val loss、AUC(按 step/epoch)
- Artifacts:模型权重、Checkpoint、混淆矩阵图
- Environment:git commit、依赖、Docker 镜像 ID
- Tags/Notes:实验目的、结论
为何重要:
- 可复现:三月后能复现今日最佳 run
- 对比:并排比较 50 组超参,找 Pareto 最优
- 协作:团队共享实验看板,避免重复踩坑
- 合规:审计「该模型如何训练出来」
- 自动化:与 HPO、CI 集成,达标自动注册
工具:MLflow、W&B、Neptune。
反模式:spreadsheet 手抄 metric、本地 checkpoint 无命名规范、notebook 覆盖旧结果。详见 MLOps 入门、实验管理。
常见误区
⚠️ 常见踩坑
只记 accuracy 不记数据和代码版本;实验名随意无法检索;不与 CI 集成。
追问
追问 1:实验跟踪和模型注册如何衔接?
实验跟踪记录每一次 run(含大量失败试错);当某个 run 达到上线标准后,将其产出的模型 artifact register 到模型注册表,并带上 run id 形成 lineage。注册表只收候选上线版本并管理阶段流转,二者是「全量记录」与「精选治理」的关系。
追问 2:分布式训练如何记录指标?
只让 rank 0(主进程)写日志,避免多副本重复打点;分布式指标(如 loss)先用 all-reduce 聚合再记录,确保是全局值而非单卡值;系统/GPU 利用率可按 rank 分别记录便于排查掉队节点。
追问 3:敏感数据实验如何跟踪?
只记录元数据与统计量,不把原始样本写入跟踪系统;用数据哈希或版本号代替明文引用;跟踪服务端做访问控制与加密,并在合规要求下脱敏或仅在内网/私有部署实例中保存。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。
📰 AI 资讯
🛠️ AI 工具