AI Agent 的记忆系统如何设计？ | AI 面试题

Q: AI Agent 的记忆系统如何设计？

记忆系统按生命周期分三层。 短期记忆 当前对话 history，存在上下文窗口内，受窗口长度限制，超出需摘要或淘汰。 长期记忆 跨会话持久化：向量数据库存对话/事实的 Embedding 做语义检索；需要建模实体关系时用知识图谱。 工作记忆 当前任务的 plan、tool results、变量状态，任务结束即清理。 写入与检索 - 写入：每轮对话后用 LLM 提取关键事实、做重要性打分与去重合并，避免原文堆积。 - 检索：用 query 语义召回 top-K，叠加时间衰减与重要性权重，注入 system prompt。 工程挑战：记忆冲突消解、隐私（敏感信息不入长期库）、成本控制。代表框架：MemGPT、Mem0。

核心要点

能讲清记忆分层：短期（上下文窗口内的对话）、长期（向量库/知识图谱跨会话存储）、工作记忆（当前任务的 plan 与中间状态）
能说出写入策略：每轮对话后用 LLM 提取关键事实并做重要性打分、去重合并，而非把原始对话整段塞入
能说出检索策略：用 query 语义召回 top-K 记忆，并叠加时间衰减与重要性权重再注入 prompt
能点出工程挑战：记忆冲突如何消解、隐私/敏感信息不入长期库、检索与存储的成本控制，并能举 MemGPT、Mem0 为例

简要回答

短期靠上下文窗口；长期用向量库存对话/事实，按需检索；可加工作记忆存当前任务状态；写入时做重要性打分，检索时混合语义+时间衰减。

标准回答

记忆系统按生命周期分三层。

短期记忆

当前对话 history，存在上下文窗口内，受窗口长度限制，超出需摘要或淘汰。

长期记忆

跨会话持久化：向量数据库存对话/事实的 Embedding 做语义检索；需要建模实体关系时用知识图谱。

工作记忆

当前任务的 plan、tool results、变量状态，任务结束即清理。

写入与检索

写入：每轮对话后用 LLM 提取关键事实、做重要性打分与去重合并，避免原文堆积。
检索：用 query 语义召回 top-K，叠加时间衰减与重要性权重，注入 system prompt。

工程挑战：记忆冲突消解、隐私（敏感信息不入长期库）、成本控制。代表框架：MemGPT、Mem0。

常见误区

⚠️ 常见踩坑

把「长上下文窗口」等同于「有记忆」——窗口只是短期缓存，会话结束即丢失，真正的长期记忆需要外部持久化与检索；另一误区是把原始对话整段写入向量库，导致噪声多、检索不准、成本飙升，应先提取摘要事实再入库。

追问

追问 1：如何避免记忆污染？

写入前做重要性/置信度过滤与去重；区分事实与推测并打标签；定期摘要压缩旧记忆；检索时加时间衰减与来源校验；敏感信息不入长期库；冲突记忆用最新或高置信覆盖并保留版本。

追问 2：MemGPT 的核心思路？

把上下文拆成「主上下文 + 外部存档」，用函数在二者间分页换入换出，类似 OS 虚拟内存。模型主动决定把哪些信息 offload 到向量库、何时检索回注，突破固定窗口限制。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。

📚 知识库

📖 术语表

📰 AI 资讯

🛠️ AI 工具

LangChain
最流行的 LLM 应用开发框架，137K+ stars。提供链式编排、RAG 检索增强生成、Agent 构建等核心能力，覆盖 Python 和 JavaScript 双语言生态，是构建 LLM 应用的基础设施
MCP Playwright
Playwright 浏览器自动化的 MCP 实现，将成熟的 Playwright 测试框架能力通过标准 MCP 协议暴露给 AI Agent。支持网页抓取、表单自动化、E2E 测试场景、SPA 应用交互等完整浏览器自动化能力。5,400+ GitHub Star，相比原生浏览器 MCP 方案，Playwright 的跨浏览器支持（Chromium/Firefox/WebKit）和成熟 API 使其在复杂场景下更可靠
AutoGen / AG2
微软开源对话式多 Agent 框架，54,000+ GitHub stars（最高），强项是代码沙箱和迭代调试，多个 Agent 通过对话协作完成复杂编程任务，MIT 协议
crewAI
角色扮演 AI Agent 编排框架，49,411+ stars。通过角色分配让多个 Agent 协作完成复杂任务，支持工具调用、任务委派、结果审核。是构建 Multi-Agent 系统的最流行框架。
Mem0
AI Agent 通用记忆层，53,592+ stars。为 AI 应用提供持久化记忆管理，支持用户偏好、对话历史、知识图谱的存储和检索，让 Agent 拥有长期记忆能力

🎯 相关面试题