Observation(观察)

就是 Agent 调用工具后拿到的返回值,比如搜索结果或代码执行输出,模型看到这个才知道下一步怎么走

亦作、亦称:观察 · environment observation · tool output observation · 环境观察 · 工具输出

Observation 是 AI 智能体感知外部世界的窗口,决定了 Agent 在每一步推理后能获得怎样的环境反馈。无论是强化学习中的环境状态感知,还是 LLM Agent 的工具调用返回,Observation 都是驱动智能体持续决策与迭代的核心信号。

概述

Observation 是智能体-环境交互循环中的关键反馈节点。

  • 定义:Agent 执行 Action 后,环境或外部工具返回的可感知信息
  • 位置:位于「Thought → Action → Observation」循环的第三步
  • 作用:为 Agent 提供决策依据,驱动下一轮推理
  • 两大场景:强化学习(RL)中的环境状态感知 vs. LLM Agent 中的工具调用返回
  • 核心价值:没有 Observation,Agent 将无法感知行动结果,陷入「盲目执行」

工作原理

Observation 在 Agent 循环中扮演「闭环反馈」的角色。

  • 信息流:Action 触发外部调用(搜索、代码执行、API)→ 返回结果作为 Observation 追加到上下文
  • 上下文追加:在 LangChain/LangGraph 等框架中,Observation 以 ToolMessage 形式写入 agent scratchpad(暂存区)
  • 状态更新:LLM 读取最新 Observation 后重新评估目标完成情况,决定继续还是终止
  • 部分可观测:在 POMDP 场景下,Agent 只能获得环境的局部快照,需要结合历史 Observation 序列推断全局状态
  • Token 消耗:每次 Observation 都会占用上下文窗口,工程上需控制其长度

类型与来源

根据来源和可观测程度,Observation 可分为多种类型。

  • 工具返回型:搜索引擎结果、代码执行输出、数据库查询结果,是 LLM Agent 最常见的 Observation 形式
  • 环境感知型:RL 场景中来自模拟器或真实世界的传感器数据(像素、数值向量等)
  • 完全可观测:Observation 等于环境真实状态(State),如棋类游戏
  • 部分可观测:Observation 仅是 State 的子集或带噪声的映射,如机器人导航、卡牌游戏
  • 人类反馈型:Human-in-the-loop 场景中,人工审核结果也可作为 Observation 注入 Agent 循环

应用场景

Observation 机制广泛应用于各类 AI Agent 和强化学习系统。

  • ReAct Agent:Search → Observation(搜索片段)→ 再次推理,实现开放域问答
  • 代码执行 Agent:运行 Python 代码 → Observation(输出或报错)→ 自动调试修复
  • 游戏 AI:AlphaGo、Atari DQN 等将棋盘/画面像素作为 Observation 输入策略网络
  • 机器人控制:关节角度、摄像头图像作为 Observation 驱动运动规划
  • 多 Agent 系统:各 Agent 的输出可作为其他 Agent 的 Observation,实现协作与信息共享

与 State(状态)的区别

Observation 与 State 是强化学习中常被混淆的两个概念。

  • State:环境的完整内部表示,通常对 Agent 不可见
  • Observation:Agent 实际感知到的信息,可能是 State 的子集或带噪声的映射
  • 完全可观测:Observation = State(如国际象棋,棋盘即完整状态)
  • 部分可观测:Observation ≠ State(如扑克牌游戏,Agent 看不到对手手牌)
  • 工程含义:LLM Agent 中「Observation = 工具调用的返回值」,State 则是整个对话历史与环境的综合

局限与误区

使用 Observation 时需注意以下常见问题和误区。

  • 噪声问题:工具返回的内容可能含有无关信息,导致 LLM 推理跑偏,需做截断或摘要处理
  • 上下文溢出:多轮循环中 Observation 不断累积,可能超出模型 context window 限制
  • 幻觉风险:若 Observation 内容本身有误(如工具返回错误数据),Agent 会将错误信息当作事实继续推理
  • 混淆误区:将 Observation 等同于 State 是 RL 初学者常见错误,在 POMDP 场景下二者严格不同
  • 延迟与超时:真实环境中 Observation 可能因工具调用超时而缺失,需设计重试或降级策略

发展脉络

Observation 概念从强化学习理论演进至 LLM Agent 工程实践。

  • 1957 年:Bellman 提出动态规划,奠定 RL 中状态-观察-奖励框架的理论基础
  • 1990 年代:POMDP(部分可观测马尔可夫决策过程)形式化了 Observation 与 State 的区分
  • 2013 年:DeepMind DQN 以游戏画面像素作为 Observation 训练 Atari 游戏 AI,开创深度 RL 时代
  • 2022 年:ReAct 论文(Yao et al.)将 Observation 引入 LLM Agent 范式,定义「Thought-Action-Observation」三元组
  • 2023-2024 年:LangChain、AutoGPT、LangGraph 等框架将 Observation 工程化,以 ToolMessage 形式标准化处理工具返回值
  • 2025 年至今:MCP(Model Context Protocol)等协议进一步规范了多工具场景下 Observation 的格式与传递机制

常见误解

日常交流中容易听到的简化说法,未必准确,但能帮助理解误解从何而来。

  • 「就是 Agent 调用工具后拿到的返回值,比如搜索结果或代码执行输出,模型看到这个才知道下一步怎么走」
  • 「在强化学习里,Observation 就是智能体的『眼睛』,它看到的不一定是环境的完整状态,可能只是部分信息」
  • 「有人把 Observation 和 State(状态)混用,其实区别在于:State 是环境的真实全貌,Observation 是 Agent 实际能感知到的那部分」

相关术语

和本术语关联紧密的其他词条,便于串联理解。

延伸阅读

从知识库精选 3 篇文章,帮助深入理解该术语。

  1. 1

    ReAct:推理与行动的循环

    让大模型边思考边行动,理解 ReAct 范式如何提升 Agent 能力

  2. 2

    Multi-Agent 系统设计与协作

    探索多智能体系统的通信协议、角色分配和任务协调机制

  3. 3

    AI 可观测性与可靠性工程

    AI 系统上线后的可观测性与可靠性保障——从 LLM 监控到 Agent 自愈的全链路实践

外部参考

维基百科:查看「Observation」词条

本页内容为本站原创撰写;维基百科链接仅作延伸参考。