Observation（观察）

就是 Agent 调用工具后拿到的返回值，比如搜索结果或代码执行输出，模型看到这个才知道下一步怎么走

亦作、亦称：观察 · environment observation · tool output observation · 环境观察 · 工具输出

Observation 是 AI 智能体感知外部世界的窗口，决定了 Agent 在每一步推理后能获得怎样的环境反馈。无论是强化学习中的环境状态感知，还是 LLM Agent 的工具调用返回，Observation 都是驱动智能体持续决策与迭代的核心信号。

概述

Observation 是智能体-环境交互循环中的关键反馈节点。

Observation 在 Agent 循环中扮演「闭环反馈」的角色。

信息流：Action 触发外部调用（搜索、代码执行、API）→ 返回结果作为 Observation 追加到上下文
上下文追加：在 LangChain/LangGraph 等框架中，Observation 以 ToolMessage 形式写入 agent scratchpad（暂存区）
状态更新：LLM 读取最新 Observation 后重新评估目标完成情况，决定继续还是终止
部分可观测：在 POMDP 场景下，Agent 只能获得环境的局部快照，需要结合历史 Observation 序列推断全局状态
Token 消耗：每次 Observation 都会占用上下文窗口，工程上需控制其长度

根据来源和可观测程度，Observation 可分为多种类型。

Observation 机制广泛应用于各类 AI Agent 和强化学习系统。

Observation 与 State 是强化学习中常被混淆的两个概念。

使用 Observation 时需注意以下常见问题和误区。

Observation 概念从强化学习理论演进至 LLM Agent 工程实践。

1957 年：Bellman 提出动态规划，奠定 RL 中状态-观察-奖励框架的理论基础
1990 年代：POMDP（部分可观测马尔可夫决策过程）形式化了 Observation 与 State 的区分
2013 年：DeepMind DQN 以游戏画面像素作为 Observation 训练 Atari 游戏 AI，开创深度 RL 时代
2022 年：ReAct 论文（Yao et al.）将 Observation 引入 LLM Agent 范式，定义「Thought-Action-Observation」三元组
2023-2024 年：LangChain、AutoGPT、LangGraph 等框架将 Observation 工程化，以 ToolMessage 形式标准化处理工具返回值
2025 年至今：MCP（Model Context Protocol）等协议进一步规范了多工具场景下 Observation 的格式与传递机制

日常交流中容易听到的简化说法，未必准确，但能帮助理解误解从何而来。

「就是 Agent 调用工具后拿到的返回值，比如搜索结果或代码执行输出，模型看到这个才知道下一步怎么走」
「在强化学习里，Observation 就是智能体的『眼睛』，它看到的不一定是环境的完整状态，可能只是部分信息」
「有人把 Observation 和 State（状态）混用，其实区别在于：State 是环境的真实全貌，Observation 是 Agent 实际能感知到的那部分」

从知识库精选 3 篇文章，帮助深入理解该术语。

本页内容为本站原创撰写；维基百科链接仅作延伸参考。