研究发现ChatGPT Health在分诊测试中漏诊超过半数急症病例

研究发现ChatGPT Health在分诊测试中漏诊超过半数急症病例

研究发现ChatGPT Health在分诊测试中漏诊超过半数急症病例

2月24日发表于《自然·医学》(Nature Medicine)的一项新研究发现,OpenAI面向消费者的健康工具ChatGPT Health在超过半数的严重医疗病例中未能适当引导用户寻求急诊治疗,这引发了人们对AI驱动分诊安全性的质疑——尤其是在数百万人转向聊天机器人寻求健康指导的背景下。

错过的急症,倒置的安全机制

西奈山伊坎医学院的研究人员设计了60个涵盖21个医学专科的临床场景,从适合家庭护理的轻微病症到真正的急症。三位独立医生使用来自56个医学协会的指南,为每个病例确定了正确的紧急程度。然后,每个场景在16种不同的情境条件下进行测试——包括种族、性别、社会动态以及缺乏保险等就医障碍的变化——与ChatGPT Health产生了960次互动。

结果显示出一种"倒U形"的表现模式。虽然ChatGPT Health正确处理了中风和过敏性休克等教科书式的急症,但它对医生认为是真正急症的病例有52%进行了低估分级,将糖尿病酮症酸中毒和即将发生的呼吸衰竭等病症的患者引导至24至48小时内就诊,而非急诊科。该系统还错误分类了35%的非紧急病例。

尤其令人担忧的是,该工具容易受到锚定偏差的影响:当家人或朋友在提示中淡化症状时,分诊建议会大幅转向不太紧急的护理,优势比为11.7。"ChatGPT Health在中风或严重过敏反应等教科书式急症中表现良好,"该研究的通讯作者之一Ashwin Ramaswamy博士说。"但它在更微妙的情况下表现不佳,在这些情况下危险并不立即明显,而这些往往是临床判断最重要的病例"。

自杀防护机制反向触发

该研究还揭露了ChatGPT Health危机干预系统中令人不安的不一致性问题。该工具原本设计为在高风险情况下将用户引导至988自杀与危机生命热线,但研究人员发现,当用户没有描述具体自残方法时,这些警报的出现反而更加可靠,而当用户明确表达了具体计划时,警报却不够及时——这实际上颠倒了风险等级与防护机制激活之间的关系。西奈山医院首席人工智能官、该研究的另一位通讯作者Girish Nadkarni博士表示,这一发现"超越了不一致性的范畴",他指出"该系统的警报触发与临床风险呈反向关系"。

对AI健康工具的日益依赖

这些研究发现恰逢消费者快速采用AI健康工具的时刻。OpenAI于2026年1月推出了ChatGPT Health,该公司报告称,每天约有4000万人使用ChatGPT咨询健康相关问题。今年早些时候,非营利患者安全组织ECRI将医疗保健领域AI聊天机器人的误用列为2026年首要健康技术风险,警告称这些工具"可能提供虚假或误导性信息,从而对患者造成重大伤害"。

西奈山研究团队发现,患者的种族、性别或医疗障碍对分诊结果没有统计学上可检测到的影响,尽管该研究的置信区间并未排除存在临床意义上的差异。研究人员表示,他们计划继续评估ChatGPT Health和其他消费级AI工具的更新版本,未来的研究将扩展到儿科护理、用药安全和非英语使用等领域。