核心要点

  • 能讲清记忆分层:短期(上下文窗口内的对话)、长期(向量库/知识图谱跨会话存储)、工作记忆(当前任务的 plan 与中间状态)

  • 能说出写入策略:每轮对话后用 LLM 提取关键事实并做重要性打分、去重合并,而非把原始对话整段塞入

  • 能说出检索策略:用 query 语义召回 top-K 记忆,并叠加时间衰减与重要性权重再注入 prompt

  • 能点出工程挑战:记忆冲突如何消解、隐私/敏感信息不入长期库、检索与存储的成本控制,并能举 MemGPT、Mem0 为例

简要回答

短期靠上下文窗口;长期用向量库存对话/事实,按需检索;可加工作记忆存当前任务状态;写入时做重要性打分,检索时混合语义+时间衰减。

标准回答

记忆系统按生命周期分三层。

短期记忆

当前对话 history,存在上下文窗口内,受窗口长度限制,超出需摘要或淘汰。

长期记忆

跨会话持久化:向量数据库存对话/事实的 Embedding 做语义检索;需要建模实体关系时用知识图谱

工作记忆

当前任务的 plan、tool results、变量状态,任务结束即清理。

写入与检索

  • 写入:每轮对话后用 LLM 提取关键事实、做重要性打分与去重合并,避免原文堆积。
  • 检索:用 query 语义召回 top-K,叠加时间衰减与重要性权重,注入 system prompt

工程挑战:记忆冲突消解、隐私(敏感信息不入长期库)、成本控制。代表框架:MemGPT、Mem0

常见误区

⚠️ 常见踩坑

把「长上下文窗口」等同于「有记忆」——窗口只是短期缓存,会话结束即丢失,真正的长期记忆需要外部持久化与检索;另一误区是把原始对话整段写入向量库,导致噪声多、检索不准、成本飙升,应先提取摘要事实再入库。

追问

追问 1如何避免记忆污染?

写入前做重要性/置信度过滤与去重;区分事实与推测并打标签;定期摘要压缩旧记忆;检索时加时间衰减与来源校验;敏感信息不入长期库;冲突记忆用最新或高置信覆盖并保留版本。

追问 2MemGPT 的核心思路?

把上下文拆成「主上下文 + 外部存档」,用函数在二者间分页换入换出,类似 OS 虚拟内存。模型主动决定把哪些信息 offload 到向量库、何时检索回注,突破固定窗口限制。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。

🛠️ AI 工具

  • LangChain

    最流行的 LLM 应用开发框架,137K+ stars。提供链式编排、RAG 检索增强生成、Agent 构建等核心能力,覆盖 Python 和 JavaScript 双语言生态,是构建 LLM 应用的基础设施

  • MCP Playwright

    Playwright 浏览器自动化的 MCP 实现,将成熟的 Playwright 测试框架能力通过标准 MCP 协议暴露给 AI Agent。支持网页抓取、表单自动化、E2E 测试场景、SPA 应用交互等完整浏览器自动化能力。5,400+ GitHub Star,相比原生浏览器 MCP 方案,Playwright 的跨浏览器支持(Chromium/Firefox/WebKit)和成熟 API 使其在复杂场景下更可靠

  • AutoGen / AG2

    微软开源对话式多 Agent 框架,54,000+ GitHub stars(最高),强项是代码沙箱和迭代调试,多个 Agent 通过对话协作完成复杂编程任务,MIT 协议

  • crewAI

    角色扮演 AI Agent 编排框架,49,411+ stars。通过角色分配让多个 Agent 协作完成复杂任务,支持工具调用、任务委派、结果审核。是构建 Multi-Agent 系统的最流行框架。

  • Mem0

    AI Agent 通用记忆层,53,592+ stars。为 AI 应用提供持久化记忆管理,支持用户偏好、对话历史、知识图谱的存储和检索,让 Agent 拥有长期记忆能力