用 ChatGPT 诊断儿科疾病？新研究泼冷水：准确率仅 17%

1 月 4 日消息，纽约科恩儿童医学中心的三位儿科医生最近对大型语言模型 ChatGPT 的儿科疾病诊断能力进行了评估，结果令人失望。他们让 ChatGPT 诊断了 100 个随机的儿科病例，结果发现其准确率仅有 17%。IT之家注意到，这项研究发表在权威期刊《JAMA 儿科病学》上。

研究人员指出，儿科诊断尤其具有挑战性，因为除了要考虑患者的全部症状外，还必须将年龄纳入考量。近年来越来越多的人将大型语言模型视为一种潜在的医疗诊断工具，为了评估其实际效用，研究人员收集了 100 个随机的儿科病例，并让 ChatGPT 诊断。

为了简化操作，研究人员统一采用相同的方式向 ChatGPT 询问每个病例。他们首先粘贴病例文本，然后让其给出“鉴别诊断”和“最终诊断”。鉴别诊断是一种基于患者病史和身体检查，初步列出可能的诊断，而最终诊断则是最有可能导致患者症状的原因。

ChatGPT 的回答由两位未参与研究的儿科医生进行评分，评分分为“正确”、“错误”和“诊断不完整”三种。研究团队发现，ChatGPT 只有 17 次回答被评为“正确”，其中 11 次虽然与正确诊断存在临床关联，但仍存在错误。

研究人员表示，ChatGPT 目前显然还无法作为诊断工具，但通过更具针对性的训练可能会提高其准确性。他们进一步建议，在未来改进之前，ChatGPT 或许可以作为一种辅助工具，用于整理文件、协助撰写研究文章或为患者提供术后护理指南等。