数据分区与分桶（Partition / Bucket）策略如何设计？

Question 1

Accepted Answer

分区：目录级裁剪 分区按列值把表物理拆成多个目录（如 dt=2026-06-26）。查询带分区列过滤时引擎只扫描命中的目录，即分区裁剪，大幅减少 IO。选分区列要低基数且常作过滤条件，最典型是日期；若用高基数列（如 user_id）分区会爆出海量小目录小文件，反而拖垮元数据与读取。 分桶：哈希定位与无 Shuffle Join 分桶按指定列 hash 取模分到固定数量的桶文件，桶数在建表时确定。它把数据预先按 join/聚合 key 组织好：两张表用相同列、相同桶数分桶后做 join，相同 key 必落在对应桶，可做 bucket/SortMerge join 而无需再 Shuffle；聚合与采样也能受益。 组合设计 实践中常先按日期分区（控制扫描范围与生命周期），再在分区内按高基数 join 列分桶（控制单文件大小、加速 join），兼顾裁剪与计算效率。还需关注小文件治理：分区粒度别太细，定期合并小文件。

Question 2

为什么小文件问题严重，如何治理？

Accepted Answer

小文件会膨胀元数据、增加 Task 调度与打开文件的开销，拖慢查询。治理手段：合理设置分区粒度避免过细、定期 compaction 合并小文件、写入时控制并行度与 coalesce/repartition、湖仓表格式（Iceberg/Hudi）提供自动小文件合并能力。

Question 3

动态分区写入要注意什么？

Accepted Answer

动态分区按数据值自动建分区，若分区列基数高会瞬间产生大量分区目录与小文件，甚至 OOM。需限制动态分区数、写前对分区列做合理排序/重分区使同分区数据聚到一起，并控制每分区的写入并行度。

数据分区与分桶（Partition / Bucket）策略如何设计？

核心要点

标准回答

常见误区

追问

延伸学习