前言

三年前,「AI Agent 记忆」这个概念几乎不存在。开发者把对话历史一股脑塞进上下文窗口,称之为「记忆」,然后继续开发。那个结果——无状态的 Agent、重复的指令、跨会话零个性化——被认为是使用 LLM 的代价。

2026 年,这套叙事已经被彻底推翻。记忆现在是第一性架构组件,有自己的基准测试套件、自己的研究文献、各方案之间可量化的性能差距,以及快速扩张的工具生态。

本文基于 Mem0 团队在 ECAI 2025 发表的论文(arXiv:2504.19413),对 10 种记忆方案进行标准化横评,揭示当前技术边界和我们面临的真正开放问题。


为什么需要新的评估框架

在 LOCOMO 基准出现之前,记忆质量几乎都是自述的或临时评估的。不同实验室在不一致的任务上评估,无法横向比较。LOCOMO 改变了这个问题:第一次有了标准化评估集,可以在统一指标下比较不同的记忆架构。

LOCOMO 包含多会话对话数据,附带跨难度级别和题型的问题,用于测试记忆召回和跨会话理解能力

评估框架采用四个维度联合测量——这种组合的意义在于防止单维度优化:

维度衡量内容为什么要这个
BLEU Score模型响应与真实答案的 token 级相似度衡量表达一致性
F1 Score响应 token 的精确率与召回率调和均值衡量召回完整性
LLM ScoreLLM 评判对事实准确性的二元判定(0/1)衡量事实正确性
Token Consumption产生最终答案所需的总 token 数衡量计算成本

一个准确率高但每次查询消耗 26,000 token 的系统在生产环境是不可用的。低延迟但召回差的系统同样没有价值。多维度评估强制得出诚实结论。


十种方案横评:数据揭示的真相

评估基于 LOCOMO 数据集,以下是直接来自论文的核心数据:

方案LLM Score(准确率)端到端中位延迟Token 消耗
Full-context(全上下文)72.9%9.87s~26,000/对话
Mem0g(Graph 增强)68.4%1.09s~1,800/对话
Mem0(选择性检索)66.9%0.71s~1,800/对话
RAG(分块检索)61.0%0.70s
OpenAI Memory52.9%

这张表最重要的数字不在准确率列,而在延迟列:Full-context 的 9.87 秒中位延迟,p95 为 17.12 秒。

Full-context 在 LOCOMO 基准上是技术上最准确的方案。也是唯一在大规模生产实时场景中原则上不可用的方案——每 20 个用户就有一个要等待 17 秒。

Mem0 的选择性 pipeline 用 6 个百分点 accuracy 换来了:p95 延迟降低 91%(1.44 秒对比 17.12 秒)、Token 消耗降低 90%。Graph 增强版 Mem0g 将精度差距缩小到 5% 以内,同时保持 2.59 秒 p95 延迟。


从「全部记住」到「选择性遗忘」:范式转移的核心

全上下文方法的本质缺陷

全上下文(将整个对话历史放入 context window)是直觉上的天花板——它让模型看到所有历史,当然应该有最好的召回。但有两个被忽略的问题:

成本非线性:每增加一轮对话,token 消耗线性增长,但模型对「早期上下文」的关注度呈指数衰减。这导致大量 token 实际上没有被模型有效利用。

延迟累积:17 秒的 p95 延迟不是来自 LLM 推理,而是来自 context window 的处理时间。在实际用户体验中,这相当于每次响应都要「重新读一遍整本手册」。

选择性记忆的方法论基础

现代记忆系统的核心假设是:有效的记忆不是「记住更多」,而是「记住更精准」

Mem0 的做法是三层检索管道:

  1. 语义召回:向量检索找到相关记忆片段
  2. 相关性过滤:基于当前对话上下文二次筛选
  3. 时间衰减:越老的记忆权重越低

这个方法论与人类记忆的工作机制有深层对应:海马体不会记录所有感知,只保留与当前目标相关的显著事件。

Graph-RAG 的精度补全

Mem0g(Graph 增强版本)用知识图谱补全了纯向量检索的精度缺口。思路是:当向量检索找到相关内容后,通过图谱中的实体关系做二次推理,解决「语义相似但逻辑不同」的召回误判。

典型场景:用户问「上次讨论的那个供应商怎么样了」,向量可能召回所有提到该供应商的记录,但 Graph 能理解「该供应商」在时序上指的是「上次项目启动会议中提到的那个」,而不是「三个月前的采购比价中提到的那个」。


记忆架构的工程哲学:精度换速度的决策框架

不同应用场景对「精度 vs. 速度」的容忍度不同。这个决策不是二元的,而是有清晰的工程边界:

应用场景分类:
实时客服 / 对话助手
→ 延迟敏感(<2s),精度容忍 5-10% 损失
→ 选 Mem0 / Mem0g,Graph 增强在复杂查询时价值最大
长程任务 / 研究助理
→ 延迟相对宽裕(<10s),精度要求高
→ RAG 优先,Graph 补全关键召回
合规审计 / 金融分析
→ 精度优先,可接受更高延迟
→ Full-context 或 Mem0g + 高 p95 预算
个人助手 / 产品推荐
→ 用户感知延迟最重要,精度容忍度最高
→ Mem0 基础版足够

生态现状:21 个框架集成意味着什么

Mem0 官方文档覆盖 21 个框架和平台,这个数字背后有一个更重要的信号:记忆层已经成为基础设施层

13 个 Agent 框架集成:

  • LangChain / LangGraph:Python 生态最广泛
  • LlamaIndex:文档密集型 RAG
  • CrewAI:多 Agent 团队
  • AutoGen:对话式多 Agent
  • Dify / Flowise:低代码构建者
  • Google ADK:多 Agent 层级
  • OpenAI Agents SDK
  • Mastra:TypeScript 原生

Mastra 的集成值得特别关注@mastra/mem0 是第一个party 包,无需手动配置,在 TypeScript 生态里提供了与 Python 生态同等的一站式体验。这对 TypeScript-first 的团队是实质性降低门槛。


仍未解决的开放问题

第一:跨 Agent 记忆共享。当前所有方案都解决的是「单个 Agent 的记忆」,但多 Agent 系统中,记忆如何在 Agent 之间传递和共享仍无共识。A2A 协议定义了 Agent 间的通信,但记忆同步没有标准。

第二:记忆的遗忘机制。人类记忆会主动遗忘(睡眠时海马体清洗冗余信息)。Agent 记忆何时「遗忘」?基于什么信号?当前方案大多依赖时间衰减,这是粗糙的。

第三:隐私边界。当记忆里包含用户敏感信息时,如何在召回时不泄露,但同时保持记忆的完整性?差分隐私在记忆系统中的应用还没有成熟方案。


我的判断

2026 年的 AI Agent 记忆系统已经走过了「能用」阶段,进入「好用」阶段。LOCOMO 基准的出现是这个转变的技术标志——有基准意味着有工程标准,有标准意味着可以迭代。

对于开发者的实操建议:

  • 不要默认用 Full-context。它在基准上有最好的精度,但在任何真实的用户产品里都是错误的起点。
  • Mem0g(Graph 增强)是最均衡的选择。5% 的精度损失换来 90% 的成本下降和数量级的延迟改善,这是大多数场景的正确答案。
  • 如果你在构建多 Agent 系统,提前考虑记忆层的统一抽象。现在是群雄并起的阶段,选型要考虑到未来协议统一的可能性。

相关阅读