最近一项发表在《JAMA Pediatrics》的研究表明,大型语言模型ChatGPT的最新版本ChatGPT-4在诊断儿科病例时的表现令人失望。
研究由纽约科恩儿童医学中心的研究人员完成。他们让ChatGPT-4尝试诊断100个来自两大医学杂志的已发表儿科病例。这些病例都是作为测试案例发布的,需要临床医生根据症状和表现进行诊断。
结果发现,ChatGPT-4只能正确诊断17%的病例。在72%的病例中,它给出了错误的诊断。还有11%的病例,其给出的诊断过于宽泛,没有完全捕捉到正确的病症。
研究人员分析发现,ChatGPT-4在建立某些疾病之间的已知联系上比较薄弱。例如,它没有将儿童自闭症链接到可能的维生素缺乏。另外,它也时常忽略常见病症而提出一些罕见诊断。
此外,该研究强调了临床医生丰富的经验在复杂诊断中的重要性。虽然AI系统具有潜力,但目前看来尚未准备好取代人类医生,尤其是在较为棘手的儿科病例上。
研究人员认为,可以通过使用准确可信的医学文献来专门训练ChatGPT,并允许其实时获取病例数据进行“调谐”,来提高其诊断的准确性。
尽管该研究有其局限性,但它确实突出了当前AI系统在临床应用上面临的一些困难。儿科病例尤其复杂多变,对机器提出了巨大挑战。但研究人员还是对AI机器人未来在辅助医疗决策中发挥重要作用持乐观态度。