核心要点
把「思维」显式建模为状态节点,由当前状态分支生成多个候选下一步,构成一棵搜索树。
对每个候选思维状态打分/投票评估其前景,决定保留、扩展还是剪枝。
用 BFS/DFS 等搜索策略遍历,并在死路上回溯(backtrack)换分支,而非一条道走到黑。
相比 CoT 的单链、Self-Consistency 的多条独立链,ToT 是带评估与回溯的可控搜索。
标准回答
与 CoT 的区别
CoT 是一条线性推理链,无法在中途纠偏;Self-Consistency 并行采样多条独立链再投票,但每条链内部仍不可回溯。Tree of Thoughts 把推理升级为对「思维状态树」的显式搜索。
四个核心环节
- 思维分解:将问题切成一系列中间步骤,每步产出一个「思维」状态。
- 思维生成:在当前节点采样/提议多个候选下一步思维,形成分支。
- 状态评估:用模型自评打分或投票,判断各候选离目标的远近、是否可行。
- 搜索与回溯:以 BFS/DFS 等策略推进,遇到低分或死路就剪枝并回溯到上层换分支。
适用与代价
适合需要试探、规划、可能走弯路的问题(如 24 点、数独、复杂规划)。代价是大量额外的生成与评估调用,推理成本和工程复杂度远高于 CoT。
常见误区
⚠️ 常见踩坑
ToT 不是「让模型一次性输出树状文本」——它需要外层搜索控制循环来驱动生成、评估与回溯;缺少评估和回溯就退化成普通的多分支采样,失去其核心价值。
追问
追问 1:ToT 和 Self-Consistency 的本质差异?
Self-Consistency 并行跑多条完整且独立的推理链,最后对终答多数投票,链内不可干预。ToT 在每个中间步骤就分支、评估并剪枝/回溯,是带状态评估的主动搜索,能舍弃坏路径,更适合需探索的难题。
追问 2:状态评估通常怎么实现?
常用两种:让模型对单个状态打价值分(如「这条路通向解的可能性」),或对多个候选状态做相互投票择优。评估质量直接决定搜索效率,评估不准会导致剪错枝或在坏分支上浪费预算。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。