如何设计机器学习的数据 ETL 与标注流水线？

Question 1

Accepted Answer

需求与目标 为模型训练持续产出高质量、可复现、可追溯的数据与标签，并保证线上线下一致。核心关注：数据质量、标注质量与吞吐、版本可追溯、离线在线一致性。 整体架构 采集层接入日志/数据库/埋点等源；清洗层做去重、缺失值与异常处理、schema 校验；特征层做特征工程并落 Feature Store；标注层把待标样本送标注平台；版本层用 DVC/数据版本管理对数据集与特征打版本，供训练消费。 关键模块 标注闭环：用主动学习挑选模型最不确定/最有价值的样本优先标注，降低标注量；质检靠多人交叉标注 + 一致性（如 Cohen's Kappa）+ 抽检；难例和线上 badcase 回流形成数据飞轮。 评估 监控数据质量指标（缺失率、异常率、重复率）、标注一致性与准确率、特征分布；定期检测分布漂移与潜在数据投毒。 上线与监控 特征通过 Feature Store 统一供离线训练与在线推理，保证同一套计算逻辑、消除训练-服务偏差（train-serving skew）；流水线各段可重跑、可回滚到指定版本，全链路记录血缘（lineage）以复现实验。

Question 2

主动学习（Active Learning）如何降低标注成本？

Accepted Answer

不盲目全量标注，而是让模型先对未标数据打分，挑选信息量最大的样本优先送人工：常用不确定性采样（预测置信度低/熵高）、委员会查询（多模型分歧大）或多样性采样覆盖分布边缘。这样用少量标注就能最大化模型提升，把标注预算花在刀刃上。

Question 3

如何保证多人标注的一致性？

Accepted Answer

制定清晰标注规范与示例；同一样本分配给多名标注员交叉标注，用 Cohen's/Fleiss Kappa 衡量一致性，低一致样本送专家仲裁；设黄金集（已知答案）混入抽检标注员质量；对长期偏差的标注员做培训或剔除。一致性指标也用于持续监控标注质量。

Question 4

为什么需要数据版本化？怎么做？

Accepted Answer

模型效果由「代码 + 数据」共同决定，只版本化代码无法复现实验、无法定位是数据还是模型导致的变化，也难以回滚问题数据。用 DVC 等工具对数据集、特征、标注打版本并与 Git 提交关联，记录数据血缘；训练时锁定具体数据版本，出问题可精确回滚到上一个干净版本。

如何设计机器学习的数据 ETL 与标注流水线？

核心要点

标准回答

常见误区

追问

延伸学习