前言

AI Agent 的记忆系统选型,是 2026 年最容易做错、也最少被人认真做的工程决策。

大多数团队的做法是:看看 Mem0 的 GitHub star,再看看 Letta 的文档,然后「感觉」Mem0 更成熟,就选了。这不是选型,这是掷骰子。

记忆系统选型难的本质原因是:记忆质量没有客观标准。你无法通过「这个框架看起来不错」来判断它在你的业务场景下能否正确记住关键信息。

2026 年初,这个问题有了转机。Mem0 团队在 ECAI 2025 发表了论文《Memory for AI Agents: A Benchmarking Study》,引入了 LOCOMO(Long-term Conversation Memory)基准,第一次用统一的评估集对比了 10 种不同的记忆方法。

这篇文章给你一套基于 LOCOMO 方法论的记忆系统选型框架。不是为了让你记住论文结论,而是让你理解这套评估方法背后的逻辑,学会用它判断哪个记忆系统适合你的场景


为什么记忆系统选型是工程问题,不是玄学

在进入 LOCOMO 之前,先说清楚为什么很多团队在记忆系统选型上做错。

错误一:把上下文窗口当记忆

「我把所有对话历史都塞进 context,不就是记忆吗?」

不是。上下文窗口有几个根本性问题:

成本随对话时长线性增长。每次请求都要发送完整历史,token 成本会快速增长。LOCOMO 的数据显示,全上下文模式(Full-context)每次查询消耗约 26,000 tokens,而 Mem0 的图增强模式只需 1,800 tokens。差 14 倍的成本,不是小的优化空间。

检索精度随历史累积下降。当 context 里塞满了 6 个月的所有对话,每次向量检索的信号噪声比会越来越低。你以为记忆越多越好,实际上是记忆越多越难找。

没有持久化。Session 结束,context 就消失了。用户第二天回来,agent 还是从零开始。

错误二:凭 Star 数判断成熟度

Mem0 48K stars,Letta 21K stars,所以 Mem0 更成熟?Star 数是社区热度的指标,不是记忆质量的指标。LOCOMO 的数据告诉我们,Star 多的系统在某些维度上并不领先。

错误三:只测准确率,不测延迟和成本

一个记忆系统准确率 95%,但每次查询需要 10 秒,这在实时交互场景下完全不可用。另一个准确率 85%,但延迟 0.7 秒,在大多数场景下后者更有价值。

记忆系统的完整评估需要四个维度:准确率、延迟、Token 消耗、可部署性。 LOCOMO 第一次把这四个维度放在同一张表里。


LOCOMO 基准:评估 Agent 记忆的标准方法

LOCOMO 是什么

LOCOMO(Long-term Conversation Memory)是首个专为 AI Agent 记忆系统设计的标准化评估基准。它由 Mem0 团队发布,发表在 ECAI 2025(arXiv:2504.19413),作者包括 Prateek Chhikara、Dev Khant、Saket Aryan、Taranjeet Singh 和 Deshraj Yadav。

设计目标:让不同的记忆架构可以在同一个评估集上、用一致的指标进行比较。

核心逻辑:模拟多 session 的长对话场景,其中包含需要记忆的关键信息点,然后在不同时间点通过问题测试 agent 是否「记得」这些信息。

LOCOMO 的四个评估维度

LOCOMO 使用四个指标综合评估记忆系统:

维度测量内容为什么重要
LLM Score(准确率)LLM 作为裁判,判断回答是否正确(0 或 1)衡量记忆检索的质量,不是简单的文本相似度
F1 Score精确率和召回率的调和平均平衡「找对了」和「找全了」
Token Consumption每次查询消耗的 token 数量直接影响成本和延迟
End-to-End Latency从提交问题到返回答案的墙上时钟时间决定实时交互可行性

这个指标组合的设计意图是:防止单维度优化。如果只优化准确率,你可以通过返回更多上下文来「覆盖」更多问题,但这会导致成本爆炸和延迟上升。四个指标一起看,才能判断一个系统是否真正生产可用。


十种记忆方法,真实数据对比

以下是 LOCOMO 论文中测试的十种方法,按准确率从高到低排列(数据来源:Mem0 论文,ECAI 2025):

方法LLM 准确率中位延迟Token 消耗/session
Full-context(全上下文)72.9%9.87s~26,000
Mem0g(图增强)68.4%1.09s~1,800
Mem066.9%0.71s~1,800
RAG(可变配置)61.0%0.70s
OpenAI Memory(ChatGPT 内置)52.9%

数据解读一:Full-context 是准确率天花板,但不是可用解

Full-context(把完整对话历史塞进 context window)的准确率最高(72.9%),但代价是:

  • 延迟 9.87 秒(中位数),17.12 秒(p95)
  • 每次查询消耗 26,000 tokens

这个组合在 2026 年的生产环境中不可接受。实时交互场景下,1 秒以上的延迟用户就能感知到「卡了」,9.87 秒是完全不可用的。更别说每次查询 26K tokens 的成本——如果每分钟对话 10 次,每天的 token 成本就是 15.6M。

Full-context 的意义是作为评估上限——它告诉你「如果钱和延迟不是问题,最好的准确率是多少」。实际选型时,你需要在准确率和成本/延迟之间找平衡点。

数据解读二:Mem0 在准确率和成本之间找到了最优区间

Mem0 的准确率 66.9%,比 Full-context 低 6 个百分点,但:

  • 延迟从 9.87 秒降到 0.71 秒(快 14 倍)
  • Token 消耗从 26K 降到 1,800(降低 93%)

这个交换比在大多数生产场景下是值得的。6% 的准确率损失换来 14 倍的延迟提升和 93% 的成本降低,是典型的工程折中。

Mem0g(图增强版)准确率更高(68.4%),延迟稍高(1.09s),但仍然远优于 Full-context。如果你的场景对准确率更敏感、对延迟容忍度更高,Mem0g 值得考虑。

数据解读三:RAG 在延迟上有优势,但准确率差距明显

RAG 配置在延迟上表现优秀(0.70s),但准确率只有 61.0%,与 Mem0 差距 5.9 个百分点。

这个差距的原因:标准 RAG 不区分「这次对话里刚说的重要信息」和「很久以前说的、但仍然相关的信息」,检索策略相对扁平。Mem0 的分层记忆策略(个性化 + 相关事实 + 基本偏好)在这方面有明显优势。

数据解读四:OpenAI Memory 准确率垫底

ChatGPT 内置的记忆功能(OpenAI Memory)准确率只有 52.9%,是测试中最低的。这个数字有些出人意料,但可能有几个原因:

  • ChatGPT 记忆是面向通用对话优化的,对特定领域任务的记忆提取能力有限
  • LOCOMO 评测的是「AI agent 记忆能力」,ChatGPT 记忆是面向「个人助手」场景的,场景不完全匹配
  • 评测集的问题类型可能偏向 Mem0 等专用记忆系统的设计思路

重要提醒:这个数字不能简单理解为「ChatGPT 记忆不好用」。在真实使用场景中,ChatGPT 记忆对于普通用户的日常对话是有效的。但对于需要精准记忆的商业流程,专用记忆系统是必要的。


四步选择你的记忆系统

基于 LOCOMO 的数据和方法论,我给你一套四步记忆系统选型框架

第一步:定义你的场景优先级

在选记忆系统之前,先回答三个问题:

Q1:准确率失败的成本有多高?

  • 如果是客服对话,偶尔记错偏好可以接受 → 延迟和成本优先
  • 如果是医疗/法律场景,记忆错误有实质风险 → 准确率优先

Q2:实时性要求有多高?

  • 实时对话(<1s) → 延迟是硬约束
  • 异步处理(批量任务) → 延迟可以放宽

Q3:Token 预算有多少?

  • 成本敏感 → 优先选 1,800 token/session 级别的方案
  • 不差钱 → 可以考虑接近 Full-context 的高质量方案

第二步:用四维矩阵做初筛

把候选的记忆系统按四个维度打分:

系统准确率延迟Token 消耗可部署性
Mem066.9%0.71s1,800⭐⭐⭐⭐ 开源
Mem0g68.4%1.09s1,800⭐⭐⭐⭐ 开源
Letta待测待测⭐⭐⭐ 自托管
Zep/Graphiti待测待测⭐⭐⭐ 混合
RAG(自建)61.0%0.70s⭐⭐ 自建

注:部分系统没有在 LOCOMO 基准上测试,这些「待测」标记需要你用相同方法在自己业务数据上测试。

第三步:在真实数据上做召回率测试

LOCOMO 给了我们方法论,但不同业务场景的记忆需求差异很大。一个医疗记录系统的「准确记忆」定义,和一个客服系统的定义完全不同。

你需要准备:

  • Ground truth 评估集:至少 100 条包含「重要记忆点」的历史对话,每条标注「正确答案应该记住什么」
  • 召回测试:用你的候选系统在这些对话上做检索,用 LOCOMO 的评分方法评测

没有 ground truth 评估集,就无法做真正的选型决策。

第四步:考虑运维和供应链因素

除了 benchmark 数据,还要考虑:

  • 开源 vs 闭源:Mem0、Letta 是开源的,可以自托管;闭源方案的灵活性受限
  • 供应商锁定风险:记忆系统会积累你的业务数据,换供应商时数据迁移成本高
  • 向量数据库依赖:大多数记忆系统依赖向量数据库(Pinecone、Qdrant、Chroma),确保你理解这个依赖
  • 模型升级策略:模型变了,向量嵌入空间会变,你的记忆库需要重新索引——这有标准流程吗?

生产部署的记忆系统分层架构

基于 LOCOMO 的数据,一个生产级的 AI Agent 记忆系统通常采用三层架构

┌─────────────────────────────────────────┐
│ L1: 短期工作记忆(Session 级别) │ ← Redis, sub-1ms
│ 当前任务状态、Session 上下文 │
├─────────────────────────────────────────┤
│ L2: 语义记忆(跨 Session) │ ← Mem0 / Letta, ~1s
│ 用户偏好、跨会话关键事实 │
├─────────────────────────────────────────┤
│ L3: 事件记忆(长期积累) │ ← Pinecone / Qdrant, 可配置
│ 决策历史、交互模式、领域知识 │
└─────────────────────────────────────────┘

L1 短期工作记忆

技术选型:Redis(最常用)

设计原则

  • 必须设 TTL:短期记忆不加 TTL 会变成长期记忆,产生记忆污染
  • 只存当前 Session 相关的高频信息:不是所有 session 信息都要进 L1
  • L1 是易失性的:Session 结束时,L1 清空或归档到 L2
# 正确做法:L1 记忆带 TTL
redis.setex(
f"session:{session_id}:context",
ttl=3600, # 1小时后自动过期
value=json.dumps(current_context)
)
# 错误做法:L1 记忆没有 TTL
redis.set(f"session:{session_id}:context", ...)
# 忘记清理 = 内存泄漏 + 记忆污染

L2 语义记忆

技术选型:Mem0(生产验证最多)、Letta(自托管友好)

设计原则

  • 分层写入策略:不是所有信息都值得记忆。设定写入阈值(「这条信息对 3 个以上类似场景有参考价值才写入」)
  • 定期压缩:Mem0 这类系统会自动对记忆做摘要和压缩,减少存储量
  • 失效机制:当记忆过时(如用户换了公司),需要主动失效而不是等它被新记忆覆盖

L3 事件记忆

技术选型:Qdrant(开源、自托管)、Pinecone(托管服务)

设计原则

  • 事件溯源(Event Sourcing):把 agent 的每次决策作为事件记录,而不是只记录最终状态
  • 时间窗口:L3 通常按时间窗口管理(比如只保留最近 12 个月的事件记忆)
  • 用于自我纠正:L3 的核心价值是让 agent 能够回溯「当时为什么做了那个决定」,用于事后审计和自我改进

常见陷阱:记忆系统的三个隐形杀手

陷阱一:Embedding 模型升级但不重建索引

当你升级 LLM 或 embedding 模型时,向量空间会发生变化。旧的向量在新的嵌入空间里,几何位置会漂移——检索结果会系统性偏差,但你不会收到任何错误信息,因为 API 返回是正常的。

症状:模型升级后,agent 开始「自信地给出错误答案」。不是模型变笨了,是记忆检索漂移了。

解法:模型升级时,必须执行完整记忆重新索引。这应该是标准运维流程的一部分,不是出了问题才想起来。

陷阱二:只测准确率,不监控召回率

准确率衡量的是「你检索到的信息有多少是对的」。召回率衡量的是「你应该检索到的信息,你找回了多少」。

如果你的 agent 在 100 次关键决策中只检索到了 60 次应该记得的信息,准确率即使 100%,系统仍然是不合格的。

解法:在评估集中明确标注每条记忆的「应该被记住的内容」,用召回率指标评估候选系统。

陷阱三:把记忆系统当作知识库

记忆系统和知识库 RAG 是不同的东西:

  • 记忆系统:记住 agent 的交互历史、决策过程、用户偏好
  • 知识库 RAG:检索结构化的业务文档、百科知识

很多团队把两者混用,结果两边都做不好。记忆系统的数据来源是 agent 的交互行为,知识库的数据来源是业务文档。用 Mem0 管理记忆,用 RAG 管理知识库,不要合并。


总结:用数据选记忆系统,而不是用感觉

记忆系统选型是 AI Agent 搭建中最容易被低估的决策。好的记忆系统让 agent 越用越聪明,差的记忆系统让 agent 每次都在重复同样的错误。

LOCOMO 给了我们三件事

  1. 基准方法论:用四个维度(准确率、延迟、Token 消耗、可部署性)评估,而不是凭感觉
  2. 真实数据对比:Mem0 在准确率和成本之间找到了目前最好的平衡点
  3. 一个警示:Full-context 不是解,延迟和成本会让它不可用

选型框架的核心

  1. 先定义你的优先级(准确率 vs 延迟 vs 成本)
  2. 用四维矩阵初筛候选系统
  3. 在你的业务数据上做召回率测试
  4. 考虑运维和供应商锁定风险

AI Agent 记忆系统的成熟度还远不如其他层(工具层、编排层),但 LOCOMO 标志着这个领域开始有标准化的评估方法了。用数据选型,而不是用 star 数选型,是 2026 年 AI Agent 工程的基本要求。


相关阅读