容器化与虚拟化如何支撑 MLOps 实践？

Question 1

Accepted Answer

虚拟化（VM）：Hypervisor 隔离完整 OS，强隔离、较重，适合多租户硬隔离。 容器（Container）：共享宿主机内核，轻量、秒级启动，镜像分层缓存——ML 主流选择。 对 MLOps 的支持： 能力 说明 ------ ------ 环境一致 开发/CI/生产同一镜像，消除「本地能跑」 可移植 云/本地/边缘同一 artifact 版本化 镜像 tag 对应模型+代码版本 编排 K8s Deployment/HPA 自动扩缩容 GPU NVIDIA device plugin 调度 GPU 容器 微服务 预处理、推理、后处理拆分解耦 典型流程： 1. Dockerfile pin CUDA + Python 依赖 2. CI 构建镜像 push registry 3. K8s manifest/Helm 部署；KServe/BentoML 封装推理 4. 金丝雀更新 image tag 注意：镜像体积（多阶段构建）、GPU 驱动与 CUDA 版本匹配、有状态训练需挂载 PVC。详见 MLOps 入门、部署实践。

Question 2

训练用容器有何坑？

Accepted Answer

镜像内 CUDA/cuDNN 版本要与宿主驱动兼容，否则 GPU 不可用；训练数据与 checkpoint 是有状态的，需挂载 PVC/对象存储而非写进容器层；大数据集的 I/O 易成瓶颈，需 prefetch；多 GPU 分布式还要配好 NCCL 与网络。

Question 3

Serverless 容器适合 ML 吗？

Accepted Answer

适合轻量、低频、可接受冷启动的推理（小模型、CPU 推理）。不适合需要常驻 GPU、加载大模型权重（冷启动慢）或长时训练的场景——那些更适合常驻 GPU 实例或 K8s。可混合：主流量用常驻服务，长尾/突发用 serverless 兜底。

Question 4

VM 何时仍需要？

Accepted Answer

强合规隔离、不同客户硬隔离、特殊驱动（部分裸金属 GPU 性能更优）。容器跑在 VM 上是常见多层隔离。

容器化与虚拟化如何支撑 MLOps 实践？

核心要点

简要回答

标准回答

常见误区

追问

延伸学习


能力	说明
环境一致	开发/CI/生产同一镜像，消除「本地能跑」
可移植	云/本地/边缘同一 artifact
版本化	镜像 tag 对应模型+代码版本
编排	K8s Deployment/HPA 自动扩缩容
GPU	NVIDIA device plugin 调度 GPU 容器
微服务	预处理、推理、后处理拆分解耦