GPT-4V医学考试成绩超过多数医学生 AI看病稳妥了？

近期研究显示，GPT-4V在医学执照考试中表现优异，准确率远超过大部分医学生。这为AI在医学临床中的应用提供了新的可能性。尽管人工智能在医学影像诊断方面取得了显著进展，医生仍难以完全信任其诊断结果，需要额外的认知成本。

为了增强医生对人工智能的信任，研究团队建议通过医学执照考试来评估AI的专业知识和技能。研究还指出GPT-4V在解释质量方面存在局限性，强调了人机协作在未来医疗诊断中的重要性。

论文地址：https://www.medrxiv.org/content/10.1101/2023.10.26.23297629v3

图源备注：图片由AI生成，图片授权服务商Midjourney

该研究使用了涉及不同医学领域的带有图像的选择题来测试GPT-4V的性能，结果显示在美国医学执照考试等三个考试上，GPT-4V的准确率分别达到了86.2%、62.0%和73.1%。

尽管在解释正确时医疗专业人士对GPT-4V的解释较为认可，但当回答错误时，存在图像误解等问题。研究团队提出通过提示来改进GPT-4V的解释质量，展示了GPT-4V作为影像诊断辅助工具的潜力。然而，研究也指出GPT-4V仍需改进解释质量和可靠性，以适应真实临床场景。

综合而言，GPT-4V在医学执照考试中的表现为人工智能在医学领域取得了显著进展提供了证据。然而，要将其应用于真实临床环境，还需要进一步改进解释质量和可靠性。这一研究为未来开发更精细的人工智能协作系统提供了方向，以使其成为可靠的医学辅助工具。