基础设施即代码（IaC）如何支撑机器学习运维？

Question 1

Accepted Answer

基础设施即代码（IaC）：用代码（Terraform、Pulumi、CDK）定义云资源，Git 版本管理，CI 自动 apply。 对 MLOps 的支持： 1. 可复现环境 - 训练集群、推理 EKS/GKE、S3 bucket、IAM 角色一键创建 - 新成员/新区域环境与 prod 一致 2. 变更治理 - PR review 基础设施变更（如开放 0.0.0.0/0） - 审计谁何时改了 GPU 配额 3. 成本与生命周期 - terraform destroy 回收临时训练集群防遗忘计费 - 环境分 dev/staging/prod workspace 隔离 4. ML 特定资源 - GPU 实例类型、Spot 策略、EFS 共享存储 - SageMaker/Vertex 端点配置 - 网络：VPC peering 连数据仓 5. 与 CI/CD 集成 - 模型部署 pipeline 依赖的 K8s namespace、Ingress、Secret 同步 provision 实践：模块化管理（networking/compute/ml-serving）；state 远程存储（S3+lock）；敏感值用 Vault。详见 MLOps 入门、AI 工程。

Question 2

IaC 和 Helm chart 分工？

Accepted Answer

Terraform 等 IaC 管「集群之外/之下」的云资源：VPC、GPU 节点池、S3、IAM、托管 K8s 控制面；Helm 管「集群之内」的应用部署：Deployment、Service、Ingress、推理服务的 values。常见做法是 IaC 建好集群，再由 Helm/ArgoCD 在其上部署 ML 工作负载。

Question 3

如何处理 IaC 中的密钥？

Accepted Answer

绝不把明文密钥写进代码或 state。用专门的密钥管理（Vault、AWS Secrets Manager、SOPS 加密），IaC 只引用其 ARN/路径；运行时由 Secret 注入。同时把 state 文件加密并限制访问，因为 plan/state 可能含敏感输出。

Question 4

Drift 检测是什么？

Accepted Answer

指检测真实云环境与 IaC 声明的期望状态之间的偏差，通常由人在控制台手改资源造成。terraform plan 会显示这些 drift；可定时跑 plan 告警，发现后选择 import 纳管或 apply 拉回声明状态，确保代码仍是单一事实来源。

基础设施即代码（IaC）如何支撑机器学习运维？

核心要点

标准回答

常见误区

追问

延伸学习