如何设计可扩展的机器学习基础设施？

Question 1

如何设计可扩展的机器学习基础设施？

Accepted Answer

系统设计框架（面试按层作答）： 1. 数据层 - 数据湖/仓（S3 + Delta/Iceberg）+ DVC 版本化 - 流批一体摄入（Kafka + Spark/Flink） - 特征平台：离线训练特征与在线 serving 特征一致 2. 训练层 - 作业队列（K8s + Volcano/Slurm）+ GPU 池化与抢占 - 分布式训练：数据并行 / 张量并行（大模型） - 实验跟踪：超参、指标、artifact 可追溯 3. 模型层 - 模型注册表（版本、阶段：Staging/Production） - 自动化评估门禁（离线 A/B、shadow traffic） 4. 服务层 - 容器化推理（K8s HPA、多副本） - 批/流/在线多模式 serving - 金丝雀发布与自动回滚 5. 观测层 - 数据漂移、模型性能、延迟/成本 可观测性 - 审计日志与合规 权衡：先澄清 QPS、模型大小、延迟 SLA、预算。详见 MLOps 入门、AI 工程。

Question 2

训练与推理资源如何隔离？

Accepted Answer

独立 K8s 节点池/命名空间，训练用 Spot/抢占实例降本，推理用稳定 on-demand 保 SLA。队列限流防训练挤占推理 GPU。

Question 3

多租户 ML 平台如何设计？

Accepted Answer

用命名空间/项目隔离各团队，配 ResourceQuota 与 GPU 配额防止互相挤占；存储、特征、模型注册按租户加 RBAC 与数据隔离；计费按用量打 label 归集。关键是隔离与配额，既共享底层算力又保证一个租户的大作业不拖垮他人。

Question 4

如何做训练作业的容错？

Accepted Answer

定期写 checkpoint 到持久存储，被抢占或失败后从最近 checkpoint 续训；调度器自动重启失败 pod；分布式训练用弹性训练（如 torchrun elastic）容忍节点增减；配合幂等的数据读取与确定的随机状态，保证续训结果一致。

如何设计可扩展的机器学习基础设施？

核心要点

简要回答

标准回答

常见误区

追问

延伸学习