哈佛研究：AI 急诊分诊准确率超越执业医师，但临床部署仍存争议

前言

LLM 在医学考试中取得高分已不稀奇—— GPT-4、Claude、 Gemini 都曾刷新过 USMLE 等执照考试纪录。但考试成绩不等于临床能力，这是医学 AI 领域长期存在的核心批评。

2026 年 4 月 30 日，《Science》刊发哈佛大学与波士顿 Beth Israel Deaconess 医学中心的联合研究，直接回应了这一批评：研究团队让 GPT-o1-preview 与两名执业急诊医师同台竞技，在真实急诊分诊场景中正面 PK。结果显示， AI 在诊断准确率和分诊决策上均显著优于人类医生。

研究设计与核心数据

研究采用模拟急诊场景，具体设计如下：

测试环境

模型：GPT-o1-preview（研究期间最新版本）
对照组：两名具有执业资质的急诊医师（attending physicians）
测试场景：急诊患者到达后「分诊窗口期」（triage window）内的初步诊断决策

核心数据

指标	GPT-o1-preview	执业急诊医师
精确或高度接近诊断率	67%	显著低于 AI
NEJM 临床病例验证	143 个病例综合评估	同期对照组

研究还进一步将模型置于 143 个《新英格兰医学杂志》（NEJM）临床病例中进行交叉验证，覆盖多种疑难杂症场景。

为什么急诊分诊是 AI 的特殊考场

急诊分诊（Emergency Triage）是患者到达医院后第一个决策节点，其特征对 AI 系统的挑战与医学考试完全不同：

信息不完整。 患者主诉可能模糊，检查结果尚未返回， AI 必须在信息极度匮乏的情况下做出风险排序。

时间压力大。 分诊决策往往只有几分钟甚至更短，错误的后果可能是致命的。

不确定性高。 同一症状可能对应数十种病因，轻症与重症的早期表现可能完全相同。

需要动态推理。 病情随时变化， AI 需要根据新的信息实时修正判断。

这些都是医学执照考试不会遇到的场景，也是此前医学 AI 研究被批评「脱离现实」的主要原因。

研究结论的局限性

值得注意的是，这项研究并非没有争议：

样本代表性存疑。 研究使用模拟病例库，与真实急诊的复杂性可能存在差距。此外仅两名人类医生对照，样本规模不足以支撑广泛的临床结论。

「母测试」的真实含义。 Meta CEO 马克·扎克伯格在同期访谈中提出「AI Agent 是否准备好让我妈妈使用」作为 Agent 成熟度判断标准，这一框架与本研究结论形成有趣对比——诊断准确率高的 AI ，并不意味着普通患者能安全独立使用。

责任归属问题。 研究没有讨论当 AI 分诊错误导致患者损害时的责任认定，这在临床应用中是无法回避的问题。

对医疗 AI Agent 发展的影响

这次研究的影响边界值得划定：

不意味着 AI 将取代急诊医生。 分诊只是急诊流程的起点，后续的诊疗决策、沟通、与患者家属的互动仍然是 AI 无法替代的领域。

LLM 在医学领域的「天花板」正在上移。 从最初的执照考试，到现在的临床场景挑战，AI 的医学能力边界正在快速扩展。

为医疗 Agent 产品化提供了新的数据支撑。 研究数据可被医疗 AI 厂商用于论证产品在急诊场景的可靠性，推动监管审批与临床落地。

我们的判断

这项研究说明：LLM 在医学领域的能力已经从「考试型聪明」升级到「临床型可用」。但对 AI Agent 开发者而言，真正的挑战不是证明 AI 比医生强，而是如何设计出在「不确定条件」和「高风险决策」下依然安全可控的 Agent 架构。对医疗从业者而言，AI 在分诊阶段超越人类医生，或许是重新审视人与 AI 协作边界的起点——不是讨论「谁替代谁」，而是「谁在哪个环节负责」。