核心要点
盘点来源:业务日志/埋点、第三方采购、人工标注、合成数据、公开数据集
用学习曲线判断「数据量」是否是瓶颈:曲线随数据增加仍在上升说明加数据有效
同时评估质量、覆盖度与代表性,确认训练分布与线上真实分布一致
数据不够时优先增数据/迁移学习/弱监督/数据增强,而非盲目堆模型容量
标准回答
数据从哪里来
主要来源包括:现有业务日志与埋点(最便宜、最贴近真实分布)、第三方采购或公开数据集、人工标注、以及合成数据。优先复用内部日志,缺标签再考虑标注或弱监督。
如何判断数据是否足够
不是看绝对数量,而是画学习曲线:固定模型,逐步增加训练样本看验证指标。若指标仍在上升,说明数据是瓶颈,加数据有效;若已饱和,则瓶颈在特征或模型。
质量与代表性比数量更关键
检查标签噪声与一致性、特征缺失率、类别是否平衡。重点核对训练分布是否覆盖线上真实场景(地域、时段、人群、长尾),避免采样偏差导致线上掉点。
数据不够时的手段
按性价比排序:补埋点/扩采集 → 数据增强 → 弱监督/半监督打标 → 迁移学习/预训练模型 → 合成数据。同时评估标签获取成本与隐私合规(PII 脱敏、授权范围)。
常见误区
⚠️ 常见踩坑
只看样本总数就下「数据够/不够」结论,而不画学习曲线区分瓶颈;以及忽视训练数据与线上分布不一致(采样偏差),导致离线好看线上掉点。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。