数据湖、数据仓库与湖仓一体有什么区别？

Question 1

数据湖、数据仓库与湖仓一体有什么区别？

Accepted Answer

数据湖：schema-on-read 数据湖把原始数据（结构化、半结构化、非结构化）以多种格式直接存进廉价对象存储（如 S3/OSS/HDFS），读取时才解析 Schema（schema-on-read）。优点是接入快、成本低、格式灵活，适合数据科学与探索；缺点是缺乏事务与质量约束，容易沦为"数据沼泽"。 数据仓库：schema-on-write 数据仓库要求数据先按维度/事实模型建模、清洗后写入（schema-on-write），保证强一致与高性能聚合查询，适合稳定的 BI 报表。代价是存算成本高、对非结构化数据支持弱、Schema 变更不灵活。 湖仓一体：两者融合 湖仓在数据湖之上引入开放表格式 Delta Lake / Iceberg / Hudi，提供 ACID 事务、Schema 演进、分区与小文件管理、时间旅行（按版本/时间戳查询历史）。它让同一份廉价存储既能跑批流 ETL，又能直接支撑 BI 与 AI 训练，避免湖与仓之间反复搬数据。

Question 2

Iceberg、Hudi、Delta 的侧重点有何不同？

Accepted Answer

三者都提供 ACID 与时间旅行。Delta 与 Spark 生态深度绑定、事务日志简单；Iceberg 表格式中立、隐藏分区与 Schema 演进强、多引擎支持好；Hudi 偏重高频 upsert 与增量拉取（CDC 场景），有 COW/MOR 两种表类型权衡读写。

Question 3

时间旅行（Time Travel）是怎么实现的？

Accepted Answer

表格式为每次写入生成不可变的数据文件与对应快照/版本元数据。查询时指定版本号或时间戳，引擎根据元数据定位该时刻有效的文件集合即可读到历史状态，常用于回滚、审计和可复现实验。

数据湖、数据仓库与湖仓一体有什么区别？

核心要点

标准回答

常见误区

追问

延伸学习