核心要点

  • 注册表是模型的「单一事实来源」,回答「生产到底跑哪个版本」并支持一键回滚

  • 管版本、阶段流转(Staging→Production→Archived)与 lineage(数据 hash、代码 commit、超参)

  • 与上下游衔接:实验 run 达标后 register,晋级 Production 触发 CI/CD 自动拉 artifact 部署

  • 别和实验跟踪混淆:跟踪记录所有试错 run,注册表只收候选上线版本并做阶段治理

简要回答

模型注册表(Model Registry):企业级 ML 的「模型 Git」——存储、版本化、审批并追踪已训练模型 artifact;

核心能力

功能 说明
版本管理 v1, v2… 每版含权重、配置、依赖
阶段流转 None → Staging → Production → Archived
Lineage 关联训练数据 hash、代码 commit、超参
元数据 指标、签名、训练者、时间戳
部署触发 晋级 Production 触发 CI/CD 拉取 artifact

MLOps 中的角色

  1. 单一事实来源:避免「生产到底跑哪个模型」混乱
  2. 审计合规:金融/医疗需追溯模型来源
  3. 回滚:快速切回上一 Production 版本
  4. 协作:DS 注册,ML Eng 部署,职责清晰

代表MLflow Model Registry、SageMaker、Vertex AI Model Registry

标准回答

模型注册表(Model Registry):企业级 ML 的「模型 Git」——存储、版本化、审批并追踪已训练模型 artifact。

核心能力

功能 说明
版本管理 v1, v2… 每版含权重、配置、依赖
阶段流转 None → Staging → Production → Archived
Lineage 关联训练数据 hash、代码 commit、超参
元数据 指标、签名、训练者、时间戳
部署触发 晋级 Production 触发 CI/CD 拉取 artifact

在 MLOps 中的角色

  1. 单一事实来源:避免「生产到底跑哪个模型」混乱
  2. 审计合规:金融/医疗需追溯模型来源
  3. 回滚:快速切回上一 Production 版本
  4. 协作:DS 注册,ML Eng 部署,职责清晰

代表:MLflow Model Registry、SageMaker、Vertex AI Model Registry。详见 MLOps 入门模型生命周期

常见误区

⚠️ 常见踩坑

与 MLflow Tracking 混淆;只说「存模型文件」不说阶段治理与 lineage;忽视回滚流程。

追问

追问 1模型注册表和实验跟踪有何区别?

实验跟踪记录每次 run(可能数百次试错);注册表只收录「候选上线」的精炼版本,带阶段治理。好实践:run 达标后 register 到 registry。

追问 2多模型 ensemble 如何注册?

注册为 bundle 或 manifest 列出子模型版本;部署时原子加载全部;版本号整体 bump,避免部分更新导致不一致。

追问 3如何做模型审批流程?

把阶段流转设为需审批的状态机:注册的候选版本附带评估指标、公平性报告与 lineage,晋级 Production 需指定 reviewer(如负责人或风控)在注册表里签核,记录审批人与时间。可结合自动门禁(指标达标才允许提交审批),既留人工把关又有审计轨迹

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。

🛠️ AI 工具

  • BentoML

    AI 模型服务化框架,8.6K+ stars。最简化的方式部署 AI 应用和模型,支持模型推理 API、任务队列、LLM 服务等,是模型从实验到生产的桥梁

  • Manifest

    智能模型路由 Agent,自动选择最优 LLM 降低 70% 成本,6.6K+ stars

  • MLflow

    开源 AI 工程平台,26K+ stars。面向 Agent、LLM 和 ML 模型的端到端生命周期管理平台,支持实验追踪、模型注册、部署和监控