云计算在 MLOps 中起什么作用？

Question 1

云计算在 MLOps 中起什么作用？

Accepted Answer

云计算在 MLOps 中的角色： 1. 弹性算力 - 按需启动 GPU/TPU 训练集群，完事即释放 - Spot/Preemptible 实例降本 60-90% - 超参搜索并行数百 job 2. 存储与数据 - S3/GCS 数据湖、版本化、生命周期策略 - 与 Snowflake/BigQuery 分析仓集成 3. 托管 ML 服务 - AWS SageMaker、GCP Vertex AI、Azure ML - 内置实验跟踪、AutoML、模型部署、监控 4. 推理扩展 - Serverless（Lambda/Cloud Run）轻量模型 - GPU 实例 + 自动扩缩容应对流量峰谷 5. 网络与安全 - VPC 隔离、IAM 细粒度权限、加密 at-rest/in-transit - 合规认证（SOC2、HIPAA）减负 6. MLOps 工具集成 - 云原生 CI/CD（CodePipeline）、容器 registry、K8s 托管（EKS/GKE） 权衡：vendor lock-in、数据出站费用、大训练长时 Spot 中断。混合云：敏感数据 on-prem，burst 训练上云。详见 MLOps 入门。

Question 2

何时不适合全云 MLOps？

Accepted Answer

超低延迟本地推理、严格数据主权、长期稳定负载（自建可能更便宜）、气隙环境。可 hybrid：云训练、边缘推理。

Question 3

云 GPU 成本如何优化？

Accepted Answer

训练用 Spot/Preemptible 配 checkpoint 容错；空闲实例及时释放或自动缩容到零；按负载选对卡型（别用 A100 跑能在 T4 上跑的活）；用量化/混合精度提单卡吞吐；推理开自动扩缩容并合并小流量。长期稳定的大负载再评估预留实例或自建。

Question 4

SageMaker 和自建 K8s 如何选？

Accepted Answer

SageMaker 等托管平台开箱即用、运维负担小，适合团队小、想快速上线、深度绑定单一云的场景，代价是灵活性低与 lock-in。自建 K8s 灵活、可跨云、长期大规模可能更省，但需要专门的平台工程投入。常见折中：用托管 K8s（EKS/GKE）+ 开源 MLOps 栈兼顾两者。

云计算在 MLOps 中起什么作用？

核心要点

简要回答

标准回答

常见误区

追问

延伸学习