Nature杂志上发表的最新研究显示,GPT-4在心智理论(Theory of Mind, ToM)方面的表现与人类相当,甚至在某些方面超过了人类。这项研究由James W. A. Strachan等人进行,他们通过一系列测试来评估GPT-4、GPT-3.5、Llama2以及人类参与者的表现,并进行了比较。
以下是研究的主要发现:
心智理论的表现:心智理论是理解他人心理状态的能力,对于社会互动至关重要。GPT-4在心智理论方面的表现与人类无异,甚至在检测讽刺和暗示方面优于人类。
测试项目:研究包括了5个测试项目,分别是错误信念、反讽、失言、暗示和奇怪故事。GPT-4在反讽、暗示和奇怪故事这3项测试中的表现明显优于人类,在错误信念测试中与人类持平,仅在失言测试中表现不如人类。
保守性:GPT-4在失言测试中的低分并非因为它缺乏理解能力,而是因为它采取了保守策略,不轻易给出确定性意见。
失言可能性测试:在失言可能性测试中,GPT-4展现了完美的性能,表明它能够成功推断说话者的心理状态,并确定无意冒犯的可能性大于故意侮辱。
能力和表现的分离:研究表明,GPT模型可能具备计算类似心智推理的技术复杂性,但在不确定情况下的表现与人类不同。人类倾向于消除不确定性,而GPT则不会自发地计算推论以减少不确定性。
谨慎行为:GPT-4在失言测试中的保守性可能源于其底层架构中的缓解措施,这些措施旨在提高事实性并避免用户过度依赖模型。
这项研究的结果表明,GPT-4在理解人类心理状态方面的能力可能被低估了。研究者呼吁建立“机器心理学”,使用实验心理学的工具和范式来系统地研究大型语言模型的能力和局限性。
论文地址:https://www.nature.com/articles/s41562-024-01882-z