发表在《美国医学会儿科杂志》上的一项研究表明,ChatGPT-4在儿科医学病例的诊断方面的准确率仅为17%,较去年一般医学病例的39%更低。
这一低成功率显示出人类儿科医生在短时间内不太可能失业的现实,研究强调了临床经验在医学领域的不可替代性。研究人员指出ChatGPT的高错误率主要源于其对疾病关系的辨识不足,并提出通过有选择性地在准确可信的医学文献上进行培训,以及提供更实时的医学数据,有望提高模型的准确性。
图源备注:图片由AI生成,图片授权服务商Midjourney
在该项由纽约科恩儿童医学中心进行的研究中,ChatGPT-4被用于分析自2013年至2023年间JAMA Pediatrics和NEJM发表的100个儿科病例。
研究人员将相关病例的文本粘贴到ChatGPT的提示中,然后由两名合格的医学研究员对AI生成的答案进行评分。ChatGPT在100个病例中仅有17个正确的诊断,72个错误的诊断,以及11个未完全捕捉到诊断的情况。其中,57%的错误诊断集中在同一器官系统。
研究发现,ChatGPT在辨识疾病之间的已知关系方面表现不佳,例如在一个病例中未能将自闭症与坏血病(维生素C缺乏)联系起来。研究者建议通过专门选择性的培训,使ChatGPT能够更好地利用准确和可信的医学文献,而非依赖互联网上可能包含不准确信息和误导的内容。他们还提出,通过提供更实时的医学数据,模型可以进行“调谐”以提高其准确性。