简要回答
短期靠上下文窗口;长期用向量库存对话/事实,按需检索;可加工作记忆存当前任务状态;写入时做重要性打分,检索时混合语义+时间衰减。
标准回答
记忆系统按生命周期分三层。
短期记忆
当前对话 history,存在上下文窗口内,受窗口长度限制,超出需摘要或淘汰。
跨会话持久化:向量数据库存对话/事实的 Embedding 做语义检索;需要建模实体关系时用知识图谱。
工作记忆
当前任务的 plan、tool results、变量状态,任务结束即清理。
写入与检索
- 写入:每轮对话后用 LLM 提取关键事实、做重要性打分与去重合并,避免原文堆积。
- 检索:用 query 语义召回 top-K,叠加时间衰减与重要性权重,注入 system prompt。
工程挑战:记忆冲突消解、隐私(敏感信息不入长期库)、成本控制。代表框架:MemGPT、Mem0。
常见误区
⚠️ 常见踩坑
把「长上下文窗口」等同于「有记忆」——窗口只是短期缓存,会话结束即丢失,真正的长期记忆需要外部持久化与检索;另一误区是把原始对话整段写入向量库,导致噪声多、检索不准、成本飙升,应先提取摘要事实再入库。
追问
追问 1:如何避免记忆污染?
写入前做重要性/置信度过滤与去重;区分事实与推测并打标签;定期摘要压缩旧记忆;检索时加时间衰减与来源校验;敏感信息不入长期库;冲突记忆用最新或高置信覆盖并保留版本。
追问 2:MemGPT 的核心思路?
把上下文拆成「主上下文 + 外部存档」,用函数在二者间分页换入换出,类似 OS 虚拟内存。模型主动决定把哪些信息 offload 到向量库、何时检索回注,突破固定窗口限制。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。
📖 术语表
📰 AI 资讯
🛠️ AI 工具
- LangChain
最流行的 LLM 应用开发框架,137K+ stars。提供链式编排、RAG 检索增强生成、Agent 构建等核心能力,覆盖 Python 和 JavaScript 双语言生态,是构建 LLM 应用的基础设施
- MCP Playwright
Playwright 浏览器自动化的 MCP 实现,将成熟的 Playwright 测试框架能力通过标准 MCP 协议暴露给 AI Agent。支持网页抓取、表单自动化、E2E 测试场景、SPA 应用交互等完整浏览器自动化能力。5,400+ GitHub Star,相比原生浏览器 MCP 方案,Playwright 的跨浏览器支持(Chromium/Firefox/WebKit)和成熟 API 使其在复杂场景下更可靠
- AutoGen / AG2
微软开源对话式多 Agent 框架,54,000+ GitHub stars(最高),强项是代码沙箱和迭代调试,多个 Agent 通过对话协作完成复杂编程任务,MIT 协议
- crewAI
角色扮演 AI Agent 编排框架,49,411+ stars。通过角色分配让多个 Agent 协作完成复杂任务,支持工具调用、任务委派、结果审核。是构建 Multi-Agent 系统的最流行框架。
- Mem0
AI Agent 通用记忆层,53,592+ stars。为 AI 应用提供持久化记忆管理,支持用户偏好、对话历史、知识图谱的存储和检索,让 Agent 拥有长期记忆能力