前言
2026年,可观测性(Observability)赛道急速拥挤。Latitude 统计显示,已有至少15款平台声称支持 AI Agent 可观测性。但仔细看,大多数产品是在「LLM 调用追踪」架构上打补丁——加了 session ID、把多步拆成链条,然后宣称自己支持 Agent。
这造成一个关键问题:传统可观测工具基于确定性输出设计,而 Agent 的本质是非确定性的多路径探索。本文提出四个核心评判维度,对15款平台分层,给出真实场景下的选型结论。
评测维度
在开始评测之前,需要理解问题的本质。
传统 LLM 监控 vs Agent 可观测性
| 维度 | 传统 LLM 监控 | Agent 可观测性 |
|---|---|---|
| 轨迹结构 | 单次请求 → 单次响应 | 多轮、跨工具、分支、回退 |
| 不确定性 | 低(Prompt 固定则输出稳定) | 高(同一输入可能走不同路径) |
| 工具可见性 | 黑盒(只知道调用了 API) | 白盒(需追踪工具选择、参数、结果) |
| 失败模式 | 输出错误 | 路径错误 + 工具串调用错误 + 状态污染 |
| 模拟测试 | 简单(对比输出质量) | 复杂(需要模拟完整环境) |
传统工具监控的是输出质量,Agent 可观测需要追踪决策过程。这不是同一件事。
功能对比
维度一:多轮追踪(Multi-turn Tracing)
评估标准:能否追踪跨越数十轮、甚至数百轮的执行轨迹?
Agent 典型场景:一个研究 Agent 可能需要:
- 调用搜索工具 → 2. 读取文档 → 3. 总结内容 → 4. 发现新线索 → 5. 再搜索 → 6. 写报告
如果工具只支持「每轮一个 span」,追踪会变成一团乱麻。好的 Agent 可观测平台应该:
- 支持树状结构(而非线性链)
- 支持分支探索(同一节点多个子路径)
- 支持轨迹回放(任意历史节点重放)
实测发现:
- LangSmith:原生支持树状 trace,但 UI 对分支过多场景加载慢
- Arize Phoenix (AX):支持嵌套 span,对长轨迹友好
- Helicone:仅支持线性链,不适合复杂 Agent
维度二:工具调用可见性(Tool Call Visibility)
评估标准:能否清晰看到每个工具调用的输入参数、输出结果、执行时长?
这不只是 log 记录,而是需要:
- 工具 schema 自动解析
- 参数类型和取值范围可视化
- 工具链依赖关系图
- 工具执行失败时的上下文保留
实测发现:
- Maxim:支持工具调用级别的深度追踪,带参数 diff 功能(对比两次调用的参数差异)
- Galileo:工具链可视化强,但免费版仅保留7天数据
- Datadog LLM Observability:与企业现有监控集成好,但对工具链解析较浅
维度三:非确定性路径分析(Non-deterministic Path Analysis)
评估标准:同一输入多次运行产生不同路径时,能否对比分析?
这是 Agent 可观测最难的部分。因为:
- Agent 可能这次选工具 A,下次选工具 B
- 路径选择受 LLM 随机性影响
- 失败可能不重现(难以复现调试)
好的平台应该提供:
- 路径相似度分析(两次运行有多大差异)
- 关键决策点标注(在哪一步发生了路径分叉)
- 失败模式聚类(一类失败是否共享同一决策节点)
实测发现:
- Braintrust:上线了「路径差异分析」功能,可以比较两次运行的 token 分布差异
- Langfuse:通过 evaluation 机制做回归测试,但对非确定性场景支持有限
- Arize Phoenix:有 trace 对比功能,但操作复杂,需要手动标注节点
维度四:仿真测试能力(Simulation Testing)
评估标准:能否在没有真实工具的情况下模拟 Agent 运行?
这是生产级 Agent 部署前的必备能力。需要模拟:
- 工具返回(预设各类返回值)
- 网络延迟和超时
- 部分工具失败后的 Agent 反应
实测发现:
- Openlayer:仿真功能最强,支持录制真实流量回放、故障注入
- Maxim:有基础仿真,但需要手动配置 mock 逻辑
- Helicone:不支持仿真
易用性体验
第一层:认真解决 Agent 复杂性的平台
适合场景:生产级多 Agent 系统,需要完整可观测能力
| 平台 | 多轮追踪 | 工具可见性 | 非确定性分析 | 仿真测试 | 定价 |
|---|---|---|---|---|---|
| LangSmith | ★★★★★ | ★★★★ | ★★★ | ★★ | 免费 5万 traces/月,超出 $0.05/trace |
| Arize Phoenix (AX) | ★★★★ | ★★★★ | ★★★★ | ★★ | 开源免费,云版 $500/月起 |
| Braintrust | ★★★ | ★★★★★ | ★★★★★ | ★★ | $500/月起(团队版) |
| Maxim | ★★★★ | ★★★★★ | ★★★★ | ★★★ | 免费 100万 events,超出 $0.002/事件 |
| Openlayer | ★★★★ | ★★★★ | ★★★★ | ★★★★★ | 定制报价 |
第二层:适配单一场景的工具
适合场景:原型验证或特定需求(不需要完整 Agent 复杂追踪)
| 平台 | 优势场景 | 局限 |
|---|---|---|
| Langfuse | 已有 LangChain/LangGraph 项目 | 工具链可见性弱,对非确定性支持不足 |
| Galileo | 工具链可视化 | 免费版保留时间短 |
| Datadog LLM Observability | 企业已有 Datadog 集成 | 深度不足,Agent 特异性功能少 |
| Helicone | 简单日志记录 | 仅线性链追踪,无仿真 |
第三层:概念验证阶段
这些产品在可观测性基础上增加了其他功能,但 Agent 核心能力尚浅:
- Peregrine:集成了评估和微调,但追踪功能基础
- AgentOps:面向 Agent 部署,未深入可观测性
- Portkey:做 gateway + 可观测,但追踪深度不够
性能实测
理解了四个维度后,我们需要知道在哪些场景下这些工具会失效。
场景一:高度并行多 Agent(Actor 模式)
问题:当10个 Agent 同时运行、互相发消息时,中心化的 trace 收集会成为瓶颈。LangSmith 在这种场景下延迟上升明显。
替代方案:Openlayer 的分布式 trace 架构对这种场景更友好。
场景二:长时间运行 Agent(月级任务)
问题:研究 Agent 可能运行数周,传统平台保留时间不够。
替代方案:自托管 Arize Phoenix 开源版,数据自己管理。
场景三:敏感数据环境(金融、医疗)
问题:云端平台的数据合规问题。
替代方案:私有化部署 + 脱敏处理层。Datadog LLM Observability 有 SOC 2 认证,适合企业内网。
如果你只需要快速验证
用 Maxim(免费额度足够)或 Langfuse(如果你用 LangChain/LangGraph)。
如果你在构建生产级系统
用 LangSmith + 自建监控层:
- LangSmith 处理 UI 和基础追踪
- 自建 Prometheus + OpenTelemetry 处理高吞吐数据
如果你对可观测性要求极高(金融、医疗)
用 Arize Phoenix 开源版 自己托管,或者选 Openlayer 定制方案。
不要用的场景
- Helicone:不适合复杂 Agent,只是日志收集器
- Portkey:可观测是附加功能,核心是 gateway
定价分析
本文评测的十五款平台大多提供免费 tier 或开源版本。主要成本差异:
- LangSmith:免费 5 万 traces/月,超出 $0.05/trace
- Arize Phoenix:开源免费,云版 $500/月起
- Braintrust:$500/月起(团队版)
- Maxim:免费 100 万 events,超出 $0.002/事件
- Openlayer:定制报价
结论:原型验证用 Maxim(免费额度充足)或 Langfuse(LangChain 生态);生产级系统用 LangSmith 或 Arize Phoenix 企业版。
总结与选型建议
如果你现在用的工具不满足需求,迁移路径:
- 从 Helicone 迁出:导出历史数据 → 接入 Maxim(免费额度接住)→ 逐步迁移生产数据
- 从自建日志系统迁出:保留 Prometheus → 用 OpenTelemetry 标准化 trace → 上层接入 LangSmith 或 Arize
- 从 Langfuse 升级到 LangSmith:Schema 兼容,评估数据集可以迁移,trace 数据需重录