标准回答
需求与目标
为模型训练持续产出高质量、可复现、可追溯的数据与标签,并保证线上线下一致。核心关注:数据质量、标注质量与吞吐、版本可追溯、离线在线一致性。
整体架构
采集层接入日志/数据库/埋点等源;清洗层做去重、缺失值与异常处理、schema 校验;特征层做特征工程并落 Feature Store;标注层把待标样本送标注平台;版本层用 DVC/数据版本管理对数据集与特征打版本,供训练消费。
关键模块
标注闭环:用主动学习挑选模型最不确定/最有价值的样本优先标注,降低标注量;质检靠多人交叉标注 + 一致性(如 Cohen's Kappa)+ 抽检;难例和线上 badcase 回流形成数据飞轮。
评估
监控数据质量指标(缺失率、异常率、重复率)、标注一致性与准确率、特征分布;定期检测分布漂移与潜在数据投毒。
上线与监控
特征通过 Feature Store 统一供离线训练与在线推理,保证同一套计算逻辑、消除训练-服务偏差(train-serving skew);流水线各段可重跑、可回滚到指定版本,全链路记录血缘(lineage)以复现实验。
常见误区
⚠️ 常见踩坑
离线训练特征与在线推理特征用两套代码计算,导致训练-服务偏差(train-serving skew)让线上效果远低于离线——应通过 Feature Store 统一;以及只追标注数量不做一致性质检,脏标签拖垮模型。
追问
追问 1:主动学习(Active Learning)如何降低标注成本?
不盲目全量标注,而是让模型先对未标数据打分,挑选信息量最大的样本优先送人工:常用不确定性采样(预测置信度低/熵高)、委员会查询(多模型分歧大)或多样性采样覆盖分布边缘。这样用少量标注就能最大化模型提升,把标注预算花在刀刃上。
追问 2:如何保证多人标注的一致性?
制定清晰标注规范与示例;同一样本分配给多名标注员交叉标注,用 Cohen's/Fleiss Kappa 衡量一致性,低一致样本送专家仲裁;设黄金集(已知答案)混入抽检标注员质量;对长期偏差的标注员做培训或剔除。一致性指标也用于持续监控标注质量。
追问 3:为什么需要数据版本化?怎么做?
模型效果由「代码 + 数据」共同决定,只版本化代码无法复现实验、无法定位是数据还是模型导致的变化,也难以回滚问题数据。用 DVC 等工具对数据集、特征、标注打版本并与 Git 提交关联,记录数据血缘;训练时锁定具体数据版本,出问题可精确回滚到上一个干净版本。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。