核心要点

  • 画出端到端链路:采集→清洗去重→特征工程→标注→版本化→训练,每段可重跑、可追溯

  • 标注做闭环:主动学习挑高价值样本送标,配质检(多人标注+一致性 Kappa)保证标签质量

  • 数据与特征版本化(DVC/Feature Store),保证实验可复现,并防止离线训练与在线推理特征不一致

  • 关注数据质量与安全:缺失/异常/泄漏/投毒检测,分布漂移监控,PII 脱敏与合规

标准回答

需求与目标

为模型训练持续产出高质量、可复现、可追溯的数据与标签,并保证线上线下一致。核心关注:数据质量、标注质量与吞吐、版本可追溯、离线在线一致性。

整体架构

采集层接入日志/数据库/埋点等源;清洗层做去重、缺失值与异常处理、schema 校验;特征层做特征工程并落 Feature Store;标注层把待标样本送标注平台;版本层用 DVC/数据版本管理对数据集与特征打版本,供训练消费。

关键模块

标注闭环:用主动学习挑选模型最不确定/最有价值的样本优先标注,降低标注量;质检靠多人交叉标注 + 一致性(如 Cohen's Kappa)+ 抽检;难例和线上 badcase 回流形成数据飞轮

评估

监控数据质量指标(缺失率、异常率、重复率)、标注一致性与准确率、特征分布;定期检测分布漂移与潜在数据投毒

上线与监控

特征通过 Feature Store 统一供离线训练与在线推理,保证同一套计算逻辑、消除训练-服务偏差(train-serving skew);流水线各段可重跑、可回滚到指定版本,全链路记录血缘(lineage)以复现实验。

常见误区

⚠️ 常见踩坑

离线训练特征与在线推理特征用两套代码计算,导致训练-服务偏差(train-serving skew)让线上效果远低于离线——应通过 Feature Store 统一;以及只追标注数量不做一致性质检,脏标签拖垮模型。

追问

追问 1主动学习(Active Learning)如何降低标注成本?

不盲目全量标注,而是让模型先对未标数据打分,挑选信息量最大的样本优先送人工:常用不确定性采样(预测置信度低/熵高)、委员会查询(多模型分歧大)或多样性采样覆盖分布边缘。这样用少量标注就能最大化模型提升,把标注预算花在刀刃上。

追问 2如何保证多人标注的一致性?

制定清晰标注规范与示例;同一样本分配给多名标注员交叉标注,用 Cohen's/Fleiss Kappa 衡量一致性,低一致样本送专家仲裁;设黄金集(已知答案)混入抽检标注员质量;对长期偏差的标注员做培训或剔除。一致性指标也用于持续监控标注质量。

追问 3为什么需要数据版本化?怎么做?

模型效果由「代码 + 数据」共同决定,只版本化代码无法复现实验、无法定位是数据还是模型导致的变化,也难以回滚问题数据。用 DVC 等工具对数据集、特征、标注打版本并与 Git 提交关联,记录数据血缘;训练时锁定具体数据版本,出问题可精确回滚到上一个干净版本。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。