MLOps

AI 的 DevOps

MLOps（Machine Learning Operations）是将机器学习系统从实验室推向生产环境的工程化实践体系，覆盖数据管理、训练流水线、模型部署与持续监控全链路。它解决的核心问题是：如何让 AI 模型在真实业务中可靠、可重复、可持续地运行。

概述

MLOps 被称为「AI 的 DevOps」，目标是打通模型从实验到生产的完整闭环。

MLOps 工程体系通常由以下几个关键模块构成。

Google 在其 MLOps 白皮书中将 MLOps 能力划分为三个成熟度等级。

Level 0（手动）：数据科学家手动训练、手动导出模型、手动部署，无流水线自动化，适合低频更新的小型项目。
Level 1（自动化训练）：训练流水线自动化，支持特征存储（Feature Store）和持续训练（CT），但部署仍需手动触发。
Level 2（自动化 CI/CD）：代码变更或数据漂移自动触发完整的 CI/CD 流水线，含自动测试、自动部署、自动监控，是大规模生产 ML 系统的目标状态。

模型上线阶段有多种部署策略，需在风险与迭代速度之间权衡。

MLOps 与相关工程实践之间存在明确的边界与互补关系。

MLOps vs DevOps：DevOps 管理「代码」的持续交付；MLOps 额外管理「数据」和「模型权重」，产物不只是可执行程序，还包括二进制模型文件及其评测指标。
MLOps vs DataOps：DataOps 专注数据管道的质量与交付速度，是 MLOps 的上游；MLOps 更关注模型训练与部署的自动化闭环。
MLOps vs LLMOps：LLMOps 是 MLOps 在大语言模型场景下的特化版本，额外关注提示词版本管理、RAG 流水线、推理成本优化（如 KV Cache、量化）等大模型特有问题。
MLOps vs AIOps：AIOps 是用 AI 来优化 IT 运维；MLOps 是用 DevOps 方法论来治理 AI 系统，两者方向相反，互不替代。

MLOps 在落地过程中存在常见的认知误区和实践陷阱。

MLOps 的形成是工业界大规模 ML 实践积累的结果。

2015：Google 工程师 Sculley 等人在 NeurIPS 发表《Hidden Technical Debt in Machine Learning Systems》，首次系统性指出 ML 系统的工程债务问题，成为 MLOps 理念的奠基文献。
2018—2019：「MLOps」一词在工程社区广泛流行，持续交付（CD4ML）等实践开始被系统化提出；MLflow 1.0 与 Kubeflow 1.0 相继发布，MLOps 工具链走向成熟。
2020：Google 发布 MLOps 白皮书，正式提出三级成熟度模型，成为行业参考标准。
2021—2022：Feature Store（Feast、Tecton）和模型监控（Evidently AI、Arize）赛道快速发展，MLOps 平台走向商业化。
2023 至今：生成式 AI 浪潮带来 LLMOps 概念，提示词工程版本管理、RAG 流水线治理、模型微调自动化成为新的前沿课题。

日常交流中容易听到的简化说法，未必准确，但能帮助理解误解从何而来。

从知识库精选 2 篇文章，帮助深入理解该术语。

本页内容为本站原创撰写；维基百科链接仅作延伸参考。