RAG 中的文档切分（Chunking）策略如何影响检索质量？

Question 1

Accepted Answer

Chunking 直接决定向量召回的质量，因为每个块是检索与嵌入的最小单位。 块大小的权衡 - 块太大：一个块包含多个主题，嵌入向量被「平均」稀释，相关信息被无关内容淹没，检索精度下降，也浪费上下文窗口。 - 块太小：语义被割裂，单块缺乏足够上下文，LLM 难以据此作答。 常见策略 1. 固定长度 + 重叠：按 token 切分，相邻块保留 10–20% 重叠，避免关键句被边界切断。 2. 语义切分：按句子/段落/标题等自然边界切，保持语义完整。 3. 父子块（Parent-Child）/ 小块检索大块返回：用小块做精确召回，命中后返回其所属的大块给 LLM，兼顾召回精度与上下文完整。 4. 结构感知：对 Markdown、表格、代码保留结构，避免破坏格式。 切分粒度要结合嵌入模型的最佳输入长度与下游任务调优。参考 向量数据库原理。

Question 2

重叠（overlap）设多大合适？

Accepted Answer

通常取块大小的 10–20%。重叠太小仍可能在边界丢失上下文，太大则增加冗余存储与召回重复。需结合文档连贯性实测。

Question 3

父子块（small-to-big）如何解决「精度 vs 上下文」矛盾？

Accepted Answer

用细粒度小块做向量匹配以提高召回精度，命中后不直接返回小块，而是返回其所属的父块（更大段落）供 LLM 阅读，从而同时获得精确定位和完整上下文。

Question 4

如何评估某种切分策略是否更好？

Accepted Answer

用固定测试集测检索指标：Context Recall、Context Precision、命中率与 MRR；再看端到端答案的 Faithfulness。对比不同块大小/策略下的指标变化来选型。

RAG 中的文档切分（Chunking）策略如何影响检索质量？

核心要点

标准回答

常见误区

追问

延伸学习