研究表明ChatGPT-4在测试对儿童病例诊断的错误率为83%

最近一项发表在《JAMA Pediatrics》的研究表明，大型语言模型ChatGPT的最新版本ChatGPT-4在诊断儿科病例时的表现令人失望。

研究由纽约科恩儿童医学中心的研究人员完成。他们让ChatGPT-4尝试诊断100个来自两大医学杂志的已发表儿科病例。这些病例都是作为测试案例发布的，需要临床医生根据症状和表现进行诊断。

结果发现，ChatGPT-4只能正确诊断17%的病例。在72%的病例中，它给出了错误的诊断。还有11%的病例，其给出的诊断过于宽泛，没有完全捕捉到正确的病症。

研究人员分析发现，ChatGPT-4在建立某些疾病之间的已知联系上比较薄弱。例如，它没有将儿童自闭症链接到可能的维生素缺乏。另外，它也时常忽略常见病症而提出一些罕见诊断。

此外，该研究强调了临床医生丰富的经验在复杂诊断中的重要性。虽然AI系统具有潜力，但目前看来尚未准备好取代人类医生，尤其是在较为棘手的儿科病例上。

研究人员认为，可以通过使用准确可信的医学文献来专门训练ChatGPT，并允许其实时获取病例数据进行“调谐”，来提高其诊断的准确性。

尽管该研究有其局限性，但它确实突出了当前AI系统在临床应用上面临的一些困难。儿科病例尤其复杂多变，对机器提出了巨大挑战。但研究人员还是对AI机器人未来在辅助医疗决策中发挥重要作用持乐观态度。