核心要点

  • 云的最大价值是弹性算力:按需起 GPU/TPU 集群、完事即释放,Spot 实例降本 60-90%

  • 提供对象存储数据湖、托管训练/推理(SageMaker/Vertex/Azure ML),免自建机房加速上线

  • 推理可弹性扩缩容(serverless 兜轻量、GPU 实例应峰谷),并复用云的 IAM/加密/合规认证

  • 要权衡 vendor lock-in、数据出站费与 Spot 中断;敏感数据可走混合云(本地+云 burst)

简要回答

云计算在 MLOps 中的角色

1. 弹性算力

  • 按需启动 GPU/TPU 训练集群,完事即释放
  • Spot/Preemptible 实例降本 60-90%
  • 超参搜索并行数百 job

2. 存储与数据

  • S3/GCS 数据湖、版本化、生命周期策略
  • 与 Snowflake/BigQuery 分析仓集成

3. 托管 ML 服务

  • AWS SageMaker、GCP Vertex AI、Azure ML
  • 内置实验跟踪、AutoML、模型部署、监控

4. 推理扩展

  • Serverless(Lambda/Cloud Run)轻量模型
  • GPU 实例 + 自动扩缩容应对流量峰谷

5. 网络与安全

  • VPC 隔离、IAM 细粒度权限、加密 at-rest/in-transit
  • 合规认证(SOC2、HIPAA)减负

6. MLOps 工具集成

  • 云原生 CI/CD(CodePipeline)、容器 registry、K8s 托管(EKS/GKE)

权衡:vendor lock-in、数据出站费用、大训练长时 Spot 中断;混合云:敏感数据 on-prem,burst 训练上云

标准回答

云计算在 MLOps 中的角色

1. 弹性算力

  • 按需启动 GPU/TPU 训练集群,完事即释放
  • Spot/Preemptible 实例降本 60-90%
  • 超参搜索并行数百 job

2. 存储与数据

  • S3/GCS 数据湖、版本化、生命周期策略
  • 与 Snowflake/BigQuery 分析仓集成

3. 托管 ML 服务

  • AWS SageMaker、GCP Vertex AI、Azure ML
  • 内置实验跟踪、AutoML、模型部署、监控

4. 推理扩展

  • Serverless(Lambda/Cloud Run)轻量模型
  • GPU 实例 + 自动扩缩容应对流量峰谷

5. 网络与安全

  • VPC 隔离、IAM 细粒度权限、加密 at-rest/in-transit
  • 合规认证(SOC2、HIPAA)减负

6. MLOps 工具集成

  • 云原生 CI/CD(CodePipeline)、容器 registry、K8s 托管(EKS/GKE)

权衡:vendor lock-in、数据出站费用、大训练长时 Spot 中断。混合云:敏感数据 on-prem,burst 训练上云。详见 MLOps 入门

常见误区

⚠️ 常见踩坑

只说「云很方便」不谈成本与 lock-in;忽视数据出站费;不提 Spot 容错需求。

追问

追问 1何时不适合全云 MLOps?

超低延迟本地推理、严格数据主权、长期稳定负载(自建可能更便宜)、气隙环境。可 hybrid:云训练、边缘推理

追问 2云 GPU 成本如何优化?

训练用 Spot/Preemptible 配 checkpoint 容错;空闲实例及时释放或自动缩容到零;按负载选对卡型(别用 A100 跑能在 T4 上跑的活);用量化/混合精度提单卡吞吐;推理开自动扩缩容并合并小流量。长期稳定的大负载再评估预留实例或自建。

追问 3SageMaker 和自建 K8s 如何选?

SageMaker 等托管平台开箱即用、运维负担小,适合团队小、想快速上线、深度绑定单一云的场景,代价是灵活性低与 lock-in。自建 K8s 灵活、可跨云、长期大规模可能更省,但需要专门的平台工程投入。常见折中:用托管 K8s(EKS/GKE)+ 开源 MLOps 栈兼顾两者。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。