Meta AI 研究人员今天发布了 OpenEQA,这是一个新的开源基准数据集,旨在衡量人工智能系统对 “体验式问答”(embodied question answering)的能力 —— 这种能力使人工智能系统能够理解现实世界,从而回答有关环境的自然语言问题。
这一数据集被 Meta 定位为 “体验智能” 领域的关键基准,其中包含超过1,600个关于180多个真实环境(如家庭和办公室)的问题。这些问题涵盖了七个问题类别,全面测试人工智能在对象和属性识别、空间和功能推理以及常识知识等技能方面的能力。
对于这一 “体验式问答”(EQA)任务,研究人员在今天发布的一篇论文中写道:“简单来说,EQA 是指在足够了解环境的情况下,以自然语言回答关于环境的问题。”
OpenEQA 项目位于人工智能的热门领域交汇处:计算机视觉、自然语言处理、知识表示和机器人技术。其最终愿景是开发能够感知和与世界互动、与人类进行自然交流,并利用知识帮助我们日常生活的人工智能代理。
研究人员在短期内看到了 “体验智能” 在两个主要应用方面的可能性。一种是嵌入增强现实眼镜或头戴式显示器中的人工智能助手,可以利用视频和其他传感器数据,实际上为用户提供了一种记忆力,能够回答诸如 “我把钥匙放在哪里了?” 之类的问题。另一种是移动机器人,可以自主探索环境以获取信息,例如搜索家中以回答 “我还有咖啡吗?” 这样的问题。
为了创建 OpenEQA 数据集,Meta 的研究人员首先收集了真实环境的视频数据和3D 扫描数据。然后,他们向人类展示了这些视频,并要求他们提出他们可能想要问一个能够访问这些视觉数据的人工智能助手的问题。
最终产生的1,636个问题全面测试了各种感知和推理能力。为了衡量人工智能代理的性能,研究人员使用大型语言模型自动评分,衡量人工智能生成的答案与人类答案的相似程度。