💡

文章摘要

从 LLM 应用到自主 Agent 的进阶路线。系统学习感知、规划、记忆、工具调用四大核心组件,掌握 Function Calling、MCP 协议和多 Agent 协作架构。

0什么是 AI Agent?

LLM 能回答问题,但不能帮你完成一个完整的任务。

AI Agent = LLM + 自主规划 + 工具调用 + 记忆

打个比方:

  • LLM 是一个聪明的顾问(给你建议)
  • Agent 是一个能干的员工(帮你干活)

2026 年,AI Agent 已经成为最热门的开发方向。Claude Code、Cursor、Devin、Manus……这些都是 Agent 产品。它们之所以强大,不是因为模型本身多聪明,而是因为 Agent 架构让 LLM 具备了自主行动的能力

传统应用 vs Agent 应用

传统应用是代码驱动的——程序员写好所有逻辑,用户按固定流程操作。Agent 应用是目标驱动的——你告诉 Agent「帮我做一件事」,它自己规划步骤、调用工具、完成目标。这是软件开发范式的根本性转变

图表加载中…

1Agent 四大核心组件

一个完整的 AI Agent感知、规划、记忆、工具执行四大核心组件构成,缺一不可:

1.1 感知模块(Perception)

Agent 需要理解用户意图和环境状态。这不仅仅是解析文本,还包括:

  • 理解用户的真实需求(用户说"帮我查个东西",到底要查什么?)
  • 感知工具的能力边界(哪个工具能解决这个问题?)
  • 读取环境上下文(当前在哪个页面?之前做了什么?)

1.2 规划模块(Planning

将复杂目标拆解为可执行的步骤序列。规划分为两种策略:

  • 单步规划:目标简单,直接生成行动计划
  • 多步规划:目标复杂,需要递归分解(类似人类的"分而治之"思维)

1.3 记忆模块(Memory)

Agent 需要保持上下文,否则每次交互都是"失忆"状态。记忆分为三层:

  • 短期记忆:当前对话上下文(对话历史)
  • 长期记忆:跨会话的知识存储(用户偏好、历史记录)
  • 工作记忆:当前任务的中间状态(做到哪一步了?)

1.4 工具执行模块(Tool Execution)

Agent 通过工具调用来改变外部世界。核心能力包括:

图表加载中…

2工具调用实战路线

工具调用是 Agent 区别于普通 LLM 的最核心能力。学习路线如下:

第一阶段:Function Calling(基础)

Function Calling 是让 LLM 输出结构化 JSON 描述「我要调用哪个函数、传什么参数」。这是最基础的工具调用方式

关键要点:

  • 工具描述要精准:LLM 靠工具的名称和描述决定调用哪个
  • 参数校验不能少:LLM 可能生成格式错误的参数,必须校验
  • 错误处理要完善:工具调用失败时,LLM 需要知道如何重试或换方案

第二阶段:MCP 协议(进阶)

Model Context Protocol模型上下文协议)是 Anthropic 提出的标准化工具接入协议。它解决了 Function Calling 的核心痛点:每个应用都要重新定义工具接口

MCP 的核心优势:

  • 统一接口:一次实现,多个 LLM 都能用
  • 动态发现:Agent 能自动发现可用的工具列表
  • 上下文传递:工具可以读取 Agent 的上下文信息

第三阶段:代码执行(高级)

让 Agent 在沙箱环境中执行代码,是最强大的工具调用形式。Claude Code、Devin 等产品都是基于这种方式。

关键挑战:

  • 安全性:沙箱隔离,防止恶意代码
  • 可观测性:实时监控代码执行状态
  • 回滚能力:执行出错时能恢复

3Multi-Agent 协作架构

当单个 Agent 无法完成复杂任务时,就需要多 Agent 协作。这是 Agent 发展的下一个阶段。

为什么需要 Multi-Agent

单个 Agent 的问题是:能力有限、上下文有限、容易迷失在复杂任务中。多个专业化 Agent 分工协作,可以解决更复杂的问题

常见的 Multi-Agent 模式

模式 1:分工协作(最常用)

  • 研究员 Agent → 搜索信息
  • 写手 Agent → 生成内容
  • 审核 Agent → 质量检查

模式 2:审查-修正

  • 主 Agent 生成方案
  • 审核 Agent 提出批评
  • 主 Agent 根据批评修正

模式 3:辩论模式

  • 两个 Agent 从不同角度分析问题
  • 通过辩论找到最优方案
图表加载中…

4学习路线与实战项目

推荐学习路线

第 1 步:Agent 基础组件(2-3 天)
→ 理解感知、规划、记忆、工具调用四大组件

第 2 步:工具调用实战(2-3 天)
Function CallingMCP 协议、外部工具集成

第 3 步:Multi-Agent 协作(2-3 天)
→ 多角色分工、通信协议、复杂任务编排

前置要求:已经学过 LLM 应用开发(会用 API)

实战项目建议

学完后可以动手做的 Agent 项目:

  • 研究助手 Agent — 自动搜索网页、整理信息、生成报告
  • 代码审查 Agent — 自动审查 PR、提建议、创建评论
  • 数据分析 Agent — 接收 CSV,自动分析、生成图表和洞察
  • 客服 Agent — 多轮对话、调用知识库、转人工

关键心态转变:从"让 AI 回答问题"到"让 AI 完成任务"

图表加载中…

💡 一句话理解

💡 建议从 Claude Code 或 Cline 开始,亲自体验 Agent 自主完成任务的过程,再学习如何自己构建 Agent。