DVC（数据版本控制）

给数据集做 Git

亦作、亦称：数据版本控制 · Data Version Control

DVC（Data Version Control）是专为机器学习设计的开源数据版本管理工具，以 Git 管理元数据、以远端存储承载大文件，让数据集、模型权重和实验流水线具备与代码同等的可复现与协作能力。它填补了传统 Git 工作流无法追踪 GB 乃至 TB 级训练数据的空白，是 MLOps 工程实践的核心基础设施之一。

概述

DVC 的核心价值在于让机器学习实验具备可复现性，解决 Git 原生无法处理大文件的痛点。

元数据与数据分离：实际数据存入 S3、GCS、HDFS 等远端存储，Git 仓库只保存指向数据的 .dvc 元数据文件（含哈希值）。
与 Git 无缝集成：git checkout 切换代码版本后，dvc checkout 即可恢复对应数据状态，版本对应关系由 Git commit 保证。
语言与框架无关：DVC 以命令行工具形式运行，不绑定特定云厂商或 Python 框架，适配异构 MLOps 环境。
开源自托管友好：Apache 2.0 协议，可在私有基础设施上完整部署，无强制云依赖。

工作原理

DVC 采用基于内容寻址的本地缓存机制，结合 DAG 式流水线描述来管理实验依赖。

内容寻址缓存：被追踪文件按 MD5 哈希存入 .dvc/cache，.dvc 文件记录哈希与存储路径，实现去重与快速校验。
远端同步：dvc push 将本地缓存上传到远端存储；dvc pull 从远端拉取数据并恢复工作目录文件。
Pipeline（dvc.yaml）：以 YAML 定义各阶段（数据处理→特征工程→训练→评估）的输入、输出与依赖，构成有向无环图（DAG）。
增量执行：dvc repro 运行流水线时，若某阶段的输入哈希未变则跳过，类似 Makefile 的增量构建逻辑。
参数追踪：params.yaml 中的超参数变更会触发对应阶段重跑，所有参数与指标均可随 Git commit 一同记录。

应用场景

DVC 在多人协作的 ML 项目与 CI/CD 自动化流程中应用最为广泛。

团队数据协作：成员 A 完成数据清洗后 dvc push，成员 B 只需 dvc pull 即可在完全相同的数据版本上复现结果。
实验对比：结合 DVCLive 记录训练指标（accuracy、loss），通过 dvc exp show 在不同分支间横向对比实验结果。
CI/CD 流水线：借助 CML（Continuous Machine Learning）在 GitHub Actions / GitLab CI 中自动触发数据校验、模型评估，并将结果以表格形式发布到 PR 评论。
标注数据版本化：计算机视觉与 NLP 项目中追踪标注数据的历史变更，记录每次标注迭代对应的模型性能变化。

与相邻概念的区别

DVC 常与 Git LFS、MLflow、Weights & Biases 混淆，它们在定位上各有侧重。

DVC vs Git LFS：Git LFS 把大文件纳入 Git 服务器 LFS 后端，受平台配额限制且无流水线能力；DVC 支持多种远端存储后端并内置 Pipeline 管理，适合完整的实验可复现场景。
DVC vs MLflow：MLflow 侧重实验追踪、模型注册与在线服务；DVC 侧重数据版本化与流水线可复现，两者在工程实践中常配合使用。
DVC vs Weights & Biases：W&B 主打云端实验可视化与团队协作，功能更重且以 SaaS 为主；DVC 是轻量、自托管友好的替代选项。
DVC vs Pachyderm：Pachyderm 在 Kubernetes 上以容器为单位管理数据版本，更适合大规模生产；DVC 更轻量，门槛低，适合中小型 ML 团队。

局限与误区

DVC 并非全能工具，有若干常见误解需要澄清。

非行级 diff：「给数据集做 Git」的类比容易误导——DVC 追踪的是文件级哈希变化，无法像 Git 一样 diff 数据内容中新增了哪些样本或标签。
Pipeline 维护成本：多阶段 dvc.yaml 的依赖声明需仔细维护，漏声明依赖会导致增量执行失效，排查成本较高。
带宽与存储成本自担：远端存储的带宽和费用由用户自行承担，大型数据集首次 push/pull 可能耗时数小时。
不涵盖服务化：DVC 不提供模型在线推理、A/B 测试或特征商店功能，需搭配 MLflow Model Registry、Seldon 等工具。
学习曲线：初次引入 DVC 需要团队成员理解内容寻址缓存、远端存储配置与 Pipeline 语法，相比纯 Git 工作流有额外认知负担。

发展脉络

DVC 从单一数据版本工具演化为轻量 MLOps 工具链，与 MLOps 概念的普及同步成长。

2017：Dmitry Petrov 等人开源 DVC（首发于 2017 年 5 月），核心功能为文件追踪与远端存储集成，解决 ML 数据版本化空白。
2019：引入 Pipeline（dvc run / dvc.yaml）机制，实现实验流水线的依赖管理与增量执行，DVC 从数据管理工具扩展为实验编排平台。
2020：推出 CML（Continuous Machine Learning），将 DVC 与 GitHub Actions / GitLab CI 打通，机器学习 CI/CD 进入主流视野。
2021–2022：发布 DVCLive 训练指标实时记录库和 Studio 协作可视化平台，构建完整的轻量 MLOps 产品矩阵；公司更名为 Iterative。
2025：lakeFS 宣布收购 DVC 开源项目（2025 年 11 月），DVC 继续以 Apache 2.0 开源协议独立运营，与 lakeFS 的企业级数据湖版本能力形成互补。

常见误解

日常交流中容易听到的简化说法，未必准确，但能帮助理解误解从何而来。

「给数据集做 Git」
「实验数据也能回滚」
「ML 项目的版本管理工具」

延伸阅读

从知识库精选 3 篇文章，帮助深入理解该术语。

外部参考

维基百科：查看「DVC」词条

本页内容为本站原创撰写；维基百科链接仅作延伸参考。

DVC（数据版本控制）

概述

工作原理

应用场景

与相邻概念的区别

局限与误区

发展脉络

常见误解

相关术语

延伸阅读

ML 流水线设计与自动化

MLOps 实战：模型版本管理与实验追踪

模型训练基础设施：GPU 集群与分布式训练环境搭建

外部参考

觉得内容有帮助？请站长喝杯咖啡 ☕