核心要点

  • 盘点来源:业务日志/埋点、第三方采购、人工标注、合成数据、公开数据集

  • 用学习曲线判断「数据量」是否是瓶颈:曲线随数据增加仍在上升说明加数据有效

  • 同时评估质量、覆盖度与代表性,确认训练分布与线上真实分布一致

  • 数据不够时优先增数据/迁移学习/弱监督/数据增强,而非盲目堆模型容量

标准回答

数据从哪里来

主要来源包括:现有业务日志与埋点(最便宜、最贴近真实分布)、第三方采购或公开数据集、人工标注、以及合成数据。优先复用内部日志,缺标签再考虑标注或弱监督。

如何判断数据是否足够

不是看绝对数量,而是画学习曲线:固定模型,逐步增加训练样本看验证指标。若指标仍在上升,说明数据是瓶颈,加数据有效;若已饱和,则瓶颈在特征或模型。

质量与代表性比数量更关键

检查标签噪声与一致性、特征缺失率、类别是否平衡。重点核对训练分布是否覆盖线上真实场景(地域、时段、人群、长尾),避免采样偏差导致线上掉点。

数据不够时的手段

按性价比排序:补埋点/扩采集 → 数据增强 → 弱监督/半监督打标 → 迁移学习/预训练模型 → 合成数据。同时评估标签获取成本与隐私合规(PII 脱敏、授权范围)。

常见误区

⚠️ 常见踩坑

只看样本总数就下「数据够/不够」结论,而不画学习曲线区分瓶颈;以及忽视训练数据与线上分布不一致(采样偏差),导致离线好看线上掉点。

追问

追问 1合成数据能解决数据不足吗?有什么风险?

合成数据在覆盖长尾、稀有类别和隐私敏感场景有用,但有分布偏差和模型坍缩风险:若用模型生成数据再训练模型,误差会自我放大。实践上把合成数据作为补充而非主体,控制比例,并用真实数据做验证集,确保合成数据没有引入虚假模式。

追问 2标签成本很高时怎么办?

优先用主动学习(只标注模型最不确定的样本)提升单位标注收益;用弱监督/规则打弱标签做预训练再用少量精标微调;用半监督利用大量无标签数据;或迁移已有相近任务的预训练模型。同时建数据飞轮,把线上用户反馈沉淀为持续标签来源。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。