前言

LLM 在医学考试中取得高分已不稀奇—— GPT-4、Claude、 Gemini 都曾刷新过 USMLE 等执照考试纪录。但考试成绩不等于临床能力,这是医学 AI 领域长期存在的核心批评。

2026 年 4 月 30 日,《Science》刊发哈佛大学与波士顿 Beth Israel Deaconess 医学中心的联合研究,直接回应了这一批评:研究团队让 GPT-o1-preview 与两名执业急诊医师同台竞技,在真实急诊分诊场景中正面 PK。结果显示, AI 在诊断准确率和分诊决策上均显著优于人类医生。

研究设计与核心数据

研究采用模拟急诊场景,具体设计如下:

测试环境

  • 模型:GPT-o1-preview(研究期间最新版本)
  • 对照组:两名具有执业资质的急诊医师(attending physicians)
  • 测试场景:急诊患者到达后「分诊窗口期」(triage window)内的初步诊断决策

核心数据

指标GPT-o1-preview执业急诊医师
精确或高度接近诊断率67%显著低于 AI
NEJM 临床病例验证143 个病例综合评估同期对照组

研究还进一步将模型置于 143 个《新英格兰医学杂志》(NEJM)临床病例中进行交叉验证,覆盖多种疑难杂症场景。

为什么急诊分诊是 AI 的特殊考场

急诊分诊(Emergency Triage)是患者到达医院后第一个决策节点,其特征对 AI 系统的挑战与医学考试完全不同:

信息不完整。 患者主诉可能模糊,检查结果尚未返回, AI 必须在信息极度匮乏的情况下做出风险排序。

时间压力大。 分诊决策往往只有几分钟甚至更短,错误的后果可能是致命的。

不确定性高。 同一症状可能对应数十种病因,轻症与重症的早期表现可能完全相同。

需要动态推理。 病情随时变化, AI 需要根据新的信息实时修正判断。

这些都是医学执照考试不会遇到的场景,也是此前医学 AI 研究被批评「脱离现实」的主要原因。

研究结论的局限性

值得注意的是,这项研究并非没有争议:

样本代表性存疑。 研究使用模拟病例库,与真实急诊的复杂性可能存在差距。此外仅两名人类医生对照,样本规模不足以支撑广泛的临床结论。

「母测试」的真实含义。 Meta CEO 马克·扎克伯格在同期访谈中提出「AI Agent 是否准备好让我妈妈使用」作为 Agent 成熟度判断标准,这一框架与本研究结论形成有趣对比——诊断准确率高的 AI ,并不意味着普通患者能安全独立使用。

责任归属问题。 研究没有讨论当 AI 分诊错误导致患者损害时的责任认定,这在临床应用中是无法回避的问题。

对医疗 AI Agent 发展的影响

这次研究的影响边界值得划定:

不意味着 AI 将取代急诊医生。 分诊只是急诊流程的起点,后续的诊疗决策、沟通、与患者家属的互动仍然是 AI 无法替代的领域。

LLM 在医学领域的「天花板」正在上移。 从最初的执照考试,到现在的临床场景挑战,AI 的医学能力边界正在快速扩展。

为医疗 Agent 产品化提供了新的数据支撑。 研究数据可被医疗 AI 厂商用于论证产品在急诊场景的可靠性,推动监管审批与临床落地。

我们的判断

这项研究说明:LLM 在医学领域的能力已经从「考试型聪明」升级到「临床型可用」。但对 AI Agent 开发者而言,真正的挑战不是证明 AI 比医生强,而是如何设计出在「不确定条件」和「高风险决策」下依然安全可控的 Agent 架构。对医疗从业者而言,AI 在分诊阶段超越人类医生,或许是重新审视人与 AI 协作边界的起点——不是讨论「谁替代谁」,而是「谁在哪个环节负责」。