当前位置:AIGC资讯 > AIGC > 正文

研究表明:GPT-4在图形推理任务上表现不佳,准确率仅33%

最近的研究表明,GPT-4在图形推理任务上表现不佳,仅有33%的准确率,引发了对大型语言模型图形处理能力的关注。

通过使用ConceptARC数据集,研究者对451名人类受试者进行了图形推理任务测试,结果显示人类在这方面表现卓越,平均准确率达到91%。

论文地址:https://arxiv.org/pdf/2305.07141.pdf

多模态版本GPT-4v的表现更差,只有25%的准确率。这凸显了在涉及图形处理的任务中,大型语言模型的多模态能力也受到限制。

研究者使用ConceptARC数据集进行测试,其中包括16个子类的图形推理题,涵盖了位置关系、形状、操作、比较等多个方面的内容。

然而,这项研究的方法引发了一些质疑,包括受试者招募的方式和GPT-4的输入方式。研究者在亚马逊众包平台上招募受试者,入门测试被认为不足以筛选高质量的受试者,样本的随机性受到争议。

此外,GPT-4的输入方式也引发了一些争议,特别是将图像转换为数字矩阵可能改变概念,这使得一些人对实验结果的可信度产生疑问。综合而言,这项研究突显了目前大型语言模型在某些特定任务上的局限性,并提出了对研究方法的进一步审视的需求。

更新时间 2023-11-21