前言

2026年,可观测性(Observability)赛道急速拥挤。Latitude 统计显示,已有至少15款平台声称支持 AI Agent 可观测性。但仔细看,大多数产品是在「LLM 调用追踪」架构上打补丁——加了 session ID、把多步拆成链条,然后宣称自己支持 Agent。

这造成一个关键问题:传统可观测工具基于确定性输出设计,而 Agent 的本质是非确定性的多路径探索。本文提出四个核心评判维度,对15款平台分层,给出真实场景下的选型结论。


评测维度

在开始评测之前,需要理解问题的本质。

传统 LLM 监控 vs Agent 可观测性

维度传统 LLM 监控Agent 可观测性
轨迹结构单次请求 → 单次响应多轮、跨工具、分支、回退
不确定性低(Prompt 固定则输出稳定)高(同一输入可能走不同路径)
工具可见性黑盒(只知道调用了 API)白盒(需追踪工具选择、参数、结果)
失败模式输出错误路径错误 + 工具串调用错误 + 状态污染
模拟测试简单(对比输出质量)复杂(需要模拟完整环境)

传统工具监控的是输出质量,Agent 可观测需要追踪决策过程。这不是同一件事。


功能对比

维度一:多轮追踪(Multi-turn Tracing)

评估标准:能否追踪跨越数十轮、甚至数百轮的执行轨迹?

Agent 典型场景:一个研究 Agent 可能需要:

  1. 调用搜索工具 → 2. 读取文档 → 3. 总结内容 → 4. 发现新线索 → 5. 再搜索 → 6. 写报告

如果工具只支持「每轮一个 span」,追踪会变成一团乱麻。好的 Agent 可观测平台应该:

  • 支持树状结构(而非线性链)
  • 支持分支探索(同一节点多个子路径)
  • 支持轨迹回放(任意历史节点重放)

实测发现

  • LangSmith:原生支持树状 trace,但 UI 对分支过多场景加载慢
  • Arize Phoenix (AX):支持嵌套 span,对长轨迹友好
  • Helicone:仅支持线性链,不适合复杂 Agent

维度二:工具调用可见性(Tool Call Visibility)

评估标准:能否清晰看到每个工具调用的输入参数、输出结果、执行时长?

这不只是 log 记录,而是需要:

  • 工具 schema 自动解析
  • 参数类型和取值范围可视化
  • 工具链依赖关系图
  • 工具执行失败时的上下文保留

实测发现

  • Maxim:支持工具调用级别的深度追踪,带参数 diff 功能(对比两次调用的参数差异)
  • Galileo:工具链可视化强,但免费版仅保留7天数据
  • Datadog LLM Observability:与企业现有监控集成好,但对工具链解析较浅

维度三:非确定性路径分析(Non-deterministic Path Analysis)

评估标准:同一输入多次运行产生不同路径时,能否对比分析?

这是 Agent 可观测最难的部分。因为:

  • Agent 可能这次选工具 A,下次选工具 B
  • 路径选择受 LLM 随机性影响
  • 失败可能不重现(难以复现调试)

好的平台应该提供:

  • 路径相似度分析(两次运行有多大差异)
  • 关键决策点标注(在哪一步发生了路径分叉)
  • 失败模式聚类(一类失败是否共享同一决策节点)

实测发现

  • Braintrust:上线了「路径差异分析」功能,可以比较两次运行的 token 分布差异
  • Langfuse:通过 evaluation 机制做回归测试,但对非确定性场景支持有限
  • Arize Phoenix:有 trace 对比功能,但操作复杂,需要手动标注节点

维度四:仿真测试能力(Simulation Testing)

评估标准:能否在没有真实工具的情况下模拟 Agent 运行?

这是生产级 Agent 部署前的必备能力。需要模拟:

  • 工具返回(预设各类返回值)
  • 网络延迟和超时
  • 部分工具失败后的 Agent 反应

实测发现

  • Openlayer:仿真功能最强,支持录制真实流量回放、故障注入
  • Maxim:有基础仿真,但需要手动配置 mock 逻辑
  • Helicone:不支持仿真

易用性体验

第一层:认真解决 Agent 复杂性的平台

适合场景:生产级多 Agent 系统,需要完整可观测能力

平台多轮追踪工具可见性非确定性分析仿真测试定价
LangSmith★★★★★★★★★★★★★★免费 5万 traces/月,超出 $0.05/trace
Arize Phoenix (AX)★★★★★★★★★★★★★★开源免费,云版 $500/月起
Braintrust★★★★★★★★★★★★★★★$500/月起(团队版)
Maxim★★★★★★★★★★★★★★★★免费 100万 events,超出 $0.002/事件
Openlayer★★★★★★★★★★★★★★★★★定制报价

第二层:适配单一场景的工具

适合场景:原型验证或特定需求(不需要完整 Agent 复杂追踪)

平台优势场景局限
Langfuse已有 LangChain/LangGraph 项目工具链可见性弱,对非确定性支持不足
Galileo工具链可视化免费版保留时间短
Datadog LLM Observability企业已有 Datadog 集成深度不足,Agent 特异性功能少
Helicone简单日志记录仅线性链追踪,无仿真

第三层:概念验证阶段

这些产品在可观测性基础上增加了其他功能,但 Agent 核心能力尚浅:

  • Peregrine:集成了评估和微调,但追踪功能基础
  • AgentOps:面向 Agent 部署,未深入可观测性
  • Portkey:做 gateway + 可观测,但追踪深度不够

性能实测

理解了四个维度后,我们需要知道在哪些场景下这些工具会失效

场景一:高度并行多 Agent(Actor 模式)

问题:当10个 Agent 同时运行、互相发消息时,中心化的 trace 收集会成为瓶颈。LangSmith 在这种场景下延迟上升明显。

替代方案:Openlayer 的分布式 trace 架构对这种场景更友好。

场景二:长时间运行 Agent(月级任务)

问题:研究 Agent 可能运行数周,传统平台保留时间不够。

替代方案:自托管 Arize Phoenix 开源版,数据自己管理。

场景三:敏感数据环境(金融、医疗)

问题:云端平台的数据合规问题。

替代方案:私有化部署 + 脱敏处理层。Datadog LLM Observability 有 SOC 2 认证,适合企业内网。


如果你只需要快速验证

Maxim(免费额度足够)或 Langfuse(如果你用 LangChain/LangGraph)。

如果你在构建生产级系统

LangSmith + 自建监控层:

  • LangSmith 处理 UI 和基础追踪
  • 自建 Prometheus + OpenTelemetry 处理高吞吐数据

如果你对可观测性要求极高(金融、医疗)

Arize Phoenix 开源版 自己托管,或者选 Openlayer 定制方案。

不要用的场景

  • Helicone:不适合复杂 Agent,只是日志收集器
  • Portkey:可观测是附加功能,核心是 gateway

定价分析

本文评测的十五款平台大多提供免费 tier 或开源版本。主要成本差异:

  • LangSmith:免费 5 万 traces/月,超出 $0.05/trace
  • Arize Phoenix:开源免费,云版 $500/月起
  • Braintrust:$500/月起(团队版)
  • Maxim:免费 100 万 events,超出 $0.002/事件
  • Openlayer:定制报价

结论:原型验证用 Maxim(免费额度充足)或 Langfuse(LangChain 生态);生产级系统用 LangSmith 或 Arize Phoenix 企业版。

总结与选型建议

如果你现在用的工具不满足需求,迁移路径:

  1. 从 Helicone 迁出:导出历史数据 → 接入 Maxim(免费额度接住)→ 逐步迁移生产数据
  2. 从自建日志系统迁出:保留 Prometheus → 用 OpenTelemetry 标准化 trace → 上层接入 LangSmith 或 Arize
  3. 从 Langfuse 升级到 LangSmith:Schema 兼容,评估数据集可以迁移,trace 数据需重录