流处理（Flink）与批处理有什么区别？

Question 1

Accepted Answer

有界 vs 无界数据 批处理处理的是有界数据集：数据已落地，作业一次性读取全量，强调吞吐和资源利用率，典型如离线数仓 T+1 跑批。流处理处理无界数据：事件持续流入，作业长期运行，强调端到端低延迟，典型如实时风控、监控大盘。 Flink 的关键能力 Flink 以原生流为核心，批被视为流的特例。它支持事件时间（按数据自带时间戳计算，而非到达时间），用 Watermark 衡量进度并容忍乱序，配合窗口触发结果。Flink 通过分布式快照（Chandy-Lamport）做状态一致性 Checkpoint，可保证 Exactly-Once 语义。 与 Spark Structured Streaming 对比 Spark Structured Streaming 采用微批：把流切成小批次复用批引擎，实现简单、生态成熟，但延迟受批间隔限制，通常在百毫秒到秒级；Flink 逐条处理，延迟更低，状态与事件时间支持更原生。选型时高吞吐离线选批，低延迟有状态实时优先 Flink。

Question 2

Watermark 是什么，解决什么问题？

Accepted Answer

Watermark 是流中携带的时间戳标记，表示"事件时间小于该值的数据已基本到齐"。它用于在乱序数据下决定窗口何时触发计算，在等待迟到数据与降低延迟之间做权衡，超过 Watermark 仍迟到的数据可丢弃或走侧输出补偿。

Question 3

Flink 如何保证 Exactly-Once？

Accepted Answer

Flink 周期性做分布式快照 Checkpoint，对算子状态与 Source 偏移量一致性快照；故障时回滚到最近 Checkpoint 重放。要端到端 Exactly-Once，还需 Sink 支持两阶段提交（如 Kafka 事务）或幂等写入。

流处理（Flink）与批处理有什么区别？

核心要点

标准回答

常见误区

追问

延伸学习