谷歌DeepMind在AI和游戏方面有着悠久的历史。
从过去与Atari游戏的密切合作开始,然后发展到AlphaStar系统可以在《星际争霸II》中达到人类大师级水平,到如今,DeepMind从单个游戏转向了通用的、可指导的游戏AI代理。
SIMA,是一个可扩展的、能听从指导的多世界AI代理,这是一个用于3D虚拟环境的通用AI代理。
技术报告:https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/sima-generalist-ai-agent-for-3d-virtual-environments/Scaling%20Instructable%20Agents%20Across%20Many%20Simulated%20Worlds.pdf
想象一下,它完全不需要游戏源代码,也不需要什么特殊的API接口。它只需要两个简单的输入:屏幕上的图像和用户口头提供的简单自然语言指令。然后,SIMA就会像魔术师一样,通过键盘和鼠标控制游戏角色执行这些指令。
这种简单直接的界面,就像是我们人类自己所用的方式,这是一个AI代理首次展示出它能够理解广泛的游戏世界的能力,同时可以按照自然语言的指令在其中执行任务,就像人类一样。
SIMA从视频游戏中学习
SIMA由预先训练好的视觉模型和一个主模型组成,主模型包括一个存储器,可输出键盘和鼠标操作。
它在九款不同的视频游戏上对SIMA进行了训练和测试,例如Hello Games的《无人深空》和Tuxedo Labs的《拆解》。
每款游戏都为SIMA打开了一个新的交互世界,从简单的导航和菜单使用,到挖掘资源、驾驶飞船或制作头盔等一系列技能。
DeepMind团队还使用了四个研究环境,其中包括Unity构建的名为“建造实验室”的新环境。在这个环境中,SIMA需要用建筑块建造雕塑,从而测试其对物体操纵和对物理世界的直观理解能力。
通过从不同游戏世界中学习,SIMA捕捉了语言与游戏行为之间的关系。
例如,它会观察人类玩家的操作,并记录下导致这些游戏行为的指令。这样的训练使得SIMA能够逐渐理解游戏世界中的语言和行为之间的联系。
SIMA的诞生意味着什么
SIMA的诞生并不是为了取得高游戏得分。
对于AI系统来说,即使是学会玩一个视频游戏也是一项技术壮举,但学会在各种游戏设置中遵循指令,可能会为适应任何环境提供更多帮助。
SIMA已经评估了600种基本技能,涵盖了导航、物体交互和菜单使用。它已经可以执行在10秒中内完成的简单任务。
DeepMind希望未来代理能够处理那些需要高级战略规划和多个子任务才能完成的任务,例如“寻找资源并建造营地”。
这对于AI来说是一个重要的目标,因为虽然大型语言模型已经催生了可以捕捉关于世界知识并生成计划的强大系统,但它们目前还缺乏代表人类采取行动的能力。
Jim Fan也对SIMA表达了期许的态度,他补充道,他对于SIMA喜欢的地方包括:
- 这是第一个通过鼠标或键盘进行操作的代理,不需要用语言进行调整
- 适应多种环境,涵盖游戏和3D模拟器
- 拥有强大的数据管道,招募人类玩家以记录行为,以及用语言进行注释
但他也同时指出了一些不足之处,包括环境数量有限;行动时长非常短,只有约10秒;数据管道不够有扩展性等。
跨游戏的泛化和未来
在DeepMind的评估中,SIMA在一组九款3D游戏中表现明显优于仅在每个单独游戏上进行训练的所有专门代理。
更重要的是,SIMA在未见过的游戏上的表现与专门为其进行训练的其他代理相比,平均表现几乎相同。
这种在全新环境中运作的能力突显了SIMA在训练之外的泛化能力。
这是一个令人鼓舞的初步成果,但需要进一步的研究才能让SIMA在已知和未知的游戏中达到与人类相媲美的水平。
结果还表明,SIMA的表现依赖于语言。
在一项控制实验中,当代理没有接受任何语言培训或指令时,它的行为虽然符合逻辑,但缺乏目标性。例如,代理可能会执行一些常见的操作,如收集资源,而不是按照预先指定的路径行动。
SIMA的结果展现的是新的泛化的、由语言驱动的AI代理的潜力。
AI代理的完成态,是达到更加通用、能够帮助虚拟世界和现实世界的人们,理解并安全地执行各种任务。
SIMA只是刚刚开始,我们可以期待在更多的训练环境中继续建立SIMA,并整合更有能力的模型,让它变得更具泛化性和多功能性,而不仅仅局限于游戏。