AI Agent 记忆系统怎么选：LOCOMO 基准测试方法论

前言

AI Agent 的记忆系统选型，是 2026 年最容易做错、也最少被人认真做的工程决策。

大多数团队的做法是：看看 Mem0 的 GitHub star，再看看 Letta 的文档，然后「感觉」Mem0 更成熟，就选了。这不是选型，这是掷骰子。

记忆系统选型难的本质原因是：记忆质量没有客观标准。你无法通过「这个框架看起来不错」来判断它在你的业务场景下能否正确记住关键信息。

2026 年初，这个问题有了转机。Mem0 团队在 ECAI 2025 发表了论文《Memory for AI Agents: A Benchmarking Study》，引入了 LOCOMO（Long-term Conversation Memory）基准，第一次用统一的评估集对比了 10 种不同的记忆方法。

这篇文章给你一套基于 LOCOMO 方法论的记忆系统选型框架。不是为了让你记住论文结论，而是让你理解这套评估方法背后的逻辑，学会用它判断哪个记忆系统适合你的场景。

为什么记忆系统选型是工程问题，不是玄学

在进入 LOCOMO 之前，先说清楚为什么很多团队在记忆系统选型上做错。

错误一：把上下文窗口当记忆

「我把所有对话历史都塞进 context，不就是记忆吗？」

不是。上下文窗口有几个根本性问题：

成本随对话时长线性增长。每次请求都要发送完整历史，token 成本会快速增长。LOCOMO 的数据显示，全上下文模式（Full-context）每次查询消耗约 26,000 tokens，而 Mem0 的图增强模式只需 1,800 tokens。差 14 倍的成本，不是小的优化空间。

检索精度随历史累积下降。当 context 里塞满了 6 个月的所有对话，每次向量检索的信号噪声比会越来越低。你以为记忆越多越好，实际上是记忆越多越难找。

没有持久化。Session 结束，context 就消失了。用户第二天回来，agent 还是从零开始。

错误二：凭 Star 数判断成熟度

Mem0 48K stars，Letta 21K stars，所以 Mem0 更成熟？Star 数是社区热度的指标，不是记忆质量的指标。LOCOMO 的数据告诉我们，Star 多的系统在某些维度上并不领先。

错误三：只测准确率，不测延迟和成本

一个记忆系统准确率 95%，但每次查询需要 10 秒，这在实时交互场景下完全不可用。另一个准确率 85%，但延迟 0.7 秒，在大多数场景下后者更有价值。

记忆系统的完整评估需要四个维度：准确率、延迟、Token 消耗、可部署性。 LOCOMO 第一次把这四个维度放在同一张表里。

LOCOMO 基准：评估 Agent 记忆的标准方法

LOCOMO 是什么

LOCOMO（Long-term Conversation Memory）是首个专为 AI Agent 记忆系统设计的标准化评估基准。它由 Mem0 团队发布，发表在 ECAI 2025（arXiv:2504.19413），作者包括 Prateek Chhikara、Dev Khant、Saket Aryan、Taranjeet Singh 和 Deshraj Yadav。

设计目标：让不同的记忆架构可以在同一个评估集上、用一致的指标进行比较。

核心逻辑：模拟多 session 的长对话场景，其中包含需要记忆的关键信息点，然后在不同时间点通过问题测试 agent 是否「记得」这些信息。

LOCOMO 的四个评估维度

LOCOMO 使用四个指标综合评估记忆系统：

维度	测量内容	为什么重要
LLM Score（准确率）	LLM 作为裁判，判断回答是否正确（0 或 1）	衡量记忆检索的质量，不是简单的文本相似度
F1 Score	精确率和召回率的调和平均	平衡「找对了」和「找全了」
Token Consumption	每次查询消耗的 token 数量	直接影响成本和延迟
End-to-End Latency	从提交问题到返回答案的墙上时钟时间	决定实时交互可行性

这个指标组合的设计意图是：防止单维度优化。如果只优化准确率，你可以通过返回更多上下文来「覆盖」更多问题，但这会导致成本爆炸和延迟上升。四个指标一起看，才能判断一个系统是否真正生产可用。

十种记忆方法，真实数据对比

以下是 LOCOMO 论文中测试的十种方法，按准确率从高到低排列（数据来源：Mem0 论文，ECAI 2025）：

方法	LLM 准确率	中位延迟	Token 消耗/session
Full-context（全上下文）	72.9%	9.87s	~26,000
Mem0g（图增强）	68.4%	1.09s	~1,800
Mem0	66.9%	0.71s	~1,800
RAG（可变配置）	61.0%	0.70s	—
OpenAI Memory（ChatGPT 内置）	52.9%	—	—

数据解读一：Full-context 是准确率天花板，但不是可用解

Full-context（把完整对话历史塞进 context window）的准确率最高（72.9%），但代价是：

延迟 9.87 秒（中位数），17.12 秒（p95）
每次查询消耗 26,000 tokens

这个组合在 2026 年的生产环境中不可接受。实时交互场景下，1 秒以上的延迟用户就能感知到「卡了」，9.87 秒是完全不可用的。更别说每次查询 26K tokens 的成本——如果每分钟对话 10 次，每天的 token 成本就是 15.6M。

Full-context 的意义是作为评估上限——它告诉你「如果钱和延迟不是问题，最好的准确率是多少」。实际选型时，你需要在准确率和成本/延迟之间找平衡点。

数据解读二：Mem0 在准确率和成本之间找到了最优区间

Mem0 的准确率 66.9%，比 Full-context 低 6 个百分点，但：

延迟从 9.87 秒降到 0.71 秒（快 14 倍）
Token 消耗从 26K 降到 1,800（降低 93%）

这个交换比在大多数生产场景下是值得的。6% 的准确率损失换来 14 倍的延迟提升和 93% 的成本降低，是典型的工程折中。

Mem0g（图增强版）准确率更高（68.4%），延迟稍高（1.09s），但仍然远优于 Full-context。如果你的场景对准确率更敏感、对延迟容忍度更高，Mem0g 值得考虑。

数据解读三：RAG 在延迟上有优势，但准确率差距明显

RAG 配置在延迟上表现优秀（0.70s），但准确率只有 61.0%，与 Mem0 差距 5.9 个百分点。

这个差距的原因：标准 RAG 不区分「这次对话里刚说的重要信息」和「很久以前说的、但仍然相关的信息」，检索策略相对扁平。Mem0 的分层记忆策略（个性化 + 相关事实 + 基本偏好）在这方面有明显优势。

数据解读四：OpenAI Memory 准确率垫底

ChatGPT 内置的记忆功能（OpenAI Memory）准确率只有 52.9%，是测试中最低的。这个数字有些出人意料，但可能有几个原因：

ChatGPT 记忆是面向通用对话优化的，对特定领域任务的记忆提取能力有限
LOCOMO 评测的是「AI agent 记忆能力」，ChatGPT 记忆是面向「个人助手」场景的，场景不完全匹配
评测集的问题类型可能偏向 Mem0 等专用记忆系统的设计思路

重要提醒：这个数字不能简单理解为「ChatGPT 记忆不好用」。在真实使用场景中，ChatGPT 记忆对于普通用户的日常对话是有效的。但对于需要精准记忆的商业流程，专用记忆系统是必要的。

四步选择你的记忆系统

基于 LOCOMO 的数据和方法论，我给你一套四步记忆系统选型框架。

第一步：定义你的场景优先级

在选记忆系统之前，先回答三个问题：

Q1：准确率失败的成本有多高？

如果是客服对话，偶尔记错偏好可以接受 → 延迟和成本优先
如果是医疗/法律场景，记忆错误有实质风险 → 准确率优先

Q2：实时性要求有多高？

实时对话（<1s） → 延迟是硬约束
异步处理（批量任务） → 延迟可以放宽

Q3：Token 预算有多少？

成本敏感 → 优先选 1,800 token/session 级别的方案
不差钱 → 可以考虑接近 Full-context 的高质量方案

第二步：用四维矩阵做初筛

把候选的记忆系统按四个维度打分：

系统	准确率	延迟	Token 消耗	可部署性
Mem0	66.9%	0.71s	1,800	⭐⭐⭐⭐ 开源
Mem0g	68.4%	1.09s	1,800	⭐⭐⭐⭐ 开源
Letta	待测	中	待测	⭐⭐⭐ 自托管
Zep/Graphiti	待测	中	待测	⭐⭐⭐ 混合
RAG（自建）	61.0%	0.70s	—	⭐⭐ 自建

注：部分系统没有在 LOCOMO 基准上测试，这些「待测」标记需要你用相同方法在自己业务数据上测试。

第三步：在真实数据上做召回率测试

LOCOMO 给了我们方法论，但不同业务场景的记忆需求差异很大。一个医疗记录系统的「准确记忆」定义，和一个客服系统的定义完全不同。

你需要准备：

Ground truth 评估集：至少 100 条包含「重要记忆点」的历史对话，每条标注「正确答案应该记住什么」
召回测试：用你的候选系统在这些对话上做检索，用 LOCOMO 的评分方法评测

没有 ground truth 评估集，就无法做真正的选型决策。

第四步：考虑运维和供应链因素

除了 benchmark 数据，还要考虑：

开源 vs 闭源：Mem0、Letta 是开源的，可以自托管；闭源方案的灵活性受限
供应商锁定风险：记忆系统会积累你的业务数据，换供应商时数据迁移成本高
向量数据库依赖：大多数记忆系统依赖向量数据库（Pinecone、Qdrant、Chroma），确保你理解这个依赖
模型升级策略：模型变了，向量嵌入空间会变，你的记忆库需要重新索引——这有标准流程吗？

生产部署的记忆系统分层架构

基于 LOCOMO 的数据，一个生产级的 AI Agent 记忆系统通常采用三层架构：

1
┌─────────────────────────────────────────┐
2
│  L1: 短期工作记忆（Session 级别）         │  ← Redis, sub-1ms
3
│  当前任务状态、Session 上下文             │
4
├─────────────────────────────────────────┤
5
│  L2: 语义记忆（跨 Session）               │  ← Mem0 / Letta, ~1s
6
│  用户偏好、跨会话关键事实                  │
7
├─────────────────────────────────────────┤
8
│  L3: 事件记忆（长期积累）                 │  ← Pinecone / Qdrant, 可配置
9
│  决策历史、交互模式、领域知识              │
10
└─────────────────────────────────────────┘

L1 短期工作记忆

技术选型：Redis（最常用）

设计原则：

必须设 TTL：短期记忆不加 TTL 会变成长期记忆，产生记忆污染
只存当前 Session 相关的高频信息：不是所有 session 信息都要进 L1
L1 是易失性的：Session 结束时，L1 清空或归档到 L2

1
# 正确做法：L1 记忆带 TTL
2
redis.setex(
3
    f"session:{session_id}:context",
4
    ttl=3600,  # 1小时后自动过期
5
    value=json.dumps(current_context)
6
)
7

8
# 错误做法：L1 记忆没有 TTL
9
redis.set(f"session:{session_id}:context", ...)
10
# 忘记清理 = 内存泄漏 + 记忆污染

L2 语义记忆

技术选型：Mem0（生产验证最多）、Letta（自托管友好）

设计原则：

分层写入策略：不是所有信息都值得记忆。设定写入阈值（「这条信息对 3 个以上类似场景有参考价值才写入」）
定期压缩：Mem0 这类系统会自动对记忆做摘要和压缩，减少存储量
失效机制：当记忆过时（如用户换了公司），需要主动失效而不是等它被新记忆覆盖

L3 事件记忆

技术选型：Qdrant（开源、自托管）、Pinecone（托管服务）

设计原则：

事件溯源（Event Sourcing）：把 agent 的每次决策作为事件记录，而不是只记录最终状态
时间窗口：L3 通常按时间窗口管理（比如只保留最近 12 个月的事件记忆）
用于自我纠正：L3 的核心价值是让 agent 能够回溯「当时为什么做了那个决定」，用于事后审计和自我改进

常见陷阱：记忆系统的三个隐形杀手

陷阱一：Embedding 模型升级但不重建索引

当你升级 LLM 或 embedding 模型时，向量空间会发生变化。旧的向量在新的嵌入空间里，几何位置会漂移——检索结果会系统性偏差，但你不会收到任何错误信息，因为 API 返回是正常的。

症状：模型升级后，agent 开始「自信地给出错误答案」。不是模型变笨了，是记忆检索漂移了。

解法：模型升级时，必须执行完整记忆重新索引。这应该是标准运维流程的一部分，不是出了问题才想起来。

陷阱二：只测准确率，不监控召回率

准确率衡量的是「你检索到的信息有多少是对的」。召回率衡量的是「你应该检索到的信息，你找回了多少」。

如果你的 agent 在 100 次关键决策中只检索到了 60 次应该记得的信息，准确率即使 100%，系统仍然是不合格的。

解法：在评估集中明确标注每条记忆的「应该被记住的内容」，用召回率指标评估候选系统。

陷阱三：把记忆系统当作知识库

记忆系统和知识库 RAG 是不同的东西：

记忆系统：记住 agent 的交互历史、决策过程、用户偏好
知识库 RAG：检索结构化的业务文档、百科知识

很多团队把两者混用，结果两边都做不好。记忆系统的数据来源是 agent 的交互行为，知识库的数据来源是业务文档。用 Mem0 管理记忆，用 RAG 管理知识库，不要合并。

总结：用数据选记忆系统，而不是用感觉

记忆系统选型是 AI Agent 搭建中最容易被低估的决策。好的记忆系统让 agent 越用越聪明，差的记忆系统让 agent 每次都在重复同样的错误。

LOCOMO 给了我们三件事：

基准方法论：用四个维度（准确率、延迟、Token 消耗、可部署性）评估，而不是凭感觉
真实数据对比：Mem0 在准确率和成本之间找到了目前最好的平衡点
一个警示：Full-context 不是解，延迟和成本会让它不可用

选型框架的核心：

先定义你的优先级（准确率 vs 延迟 vs 成本）
用四维矩阵初筛候选系统
在你的业务数据上做召回率测试
考虑运维和供应商锁定风险

AI Agent 记忆系统的成熟度还远不如其他层（工具层、编排层），但 LOCOMO 标志着这个领域开始有标准化的评估方法了。用数据选型，而不是用 star 数选型，是 2026 年 AI Agent 工程的基本要求。

相关阅读：