3月13日消息,美国时间周二,Facebook母公司Meta公布了两个数据中心规模新集群的技术细节,它们各自拥有超过2.4万个GPU,并在硬件、网络、存储、设计、性能和软件等方面上,专为支持大型语言模型如Llama 3进行训练而深度优化。
这两个新集群基于Meta先前研究超级集群(RSC)的成功。RSC自2022年启用以来,已展现出强大的计算力。
在硬件配置方面,每个集群都配备了24576个英伟达Tensor Core H100 GPU(每个数万美元),与之前使用的16000个英伟达A100 GPU相比有了明显提升,这将极大地促进自然语言处理、语音识别和图像生成等人工智能研究和开发工作。
Meta表示,这种升级不仅在数量上有所增加,其性能上的跃进也将支持更大、更复杂的模型,为生成式人工智能产品的开发铺平道路。
Meta计划在2024年底之前,将其人工智能基础设施扩大到高达35万个H100 GPU。目标是拥有相当于近60万个H100 GPU的算力。
图片来源:Meta官方博客
虽然两个新集群的GPU数量相同,但它们在网络基础设施方面各有差异,均支持400 Gbps端点之间的互联。其中一个集群采用了基于Arista 7800交换机配合Wedge400和Minipack2 OCP机架交换机的远程直接内存访问(RDMA)和融合以太网(RoCE)网络解决方案,而另一个则应用了英伟达Quantum2 InfiniBand网络架构。
值得一提的是,两个集群均基于Meta自研的开放GPU硬件平台Grand Teton构建,这是公司为支撑大型AI工作负载而开发的GPU基础硬件平台。作为Zion-EX平台的后续产品,Grand Teton在主机到GPU的带宽、计算及数据网络带宽、以及功率包络等方面都实现了显著的增强。
此外,这些集群充分利用了Meta专为Grand Teton等方案设计的Open Rack电源和机架架构,提高了数据中心的灵活性。
Meta的Open Rack v3硬件设计引入了一个灵活的机架配置方案。与传统的固定母线设计相比,它允许在机架中的任意位置安装电源架,从而使机架配置更加灵活。
在建设这些新集群时,Meta特别关注了每台服务器吞吐量、机架数量减少及能源效率之间的平衡。通过对机架内服务器数量的定制化设计,Meta确保了这些集群在提供高性能的同时,也达到了能源的高效利用。
在存储技术上,这些集群运用了Linux Filesystem中的Userspace API,并得到了Meta自家Tectonic分布式存储方案的加持。与此同时,Meta还与Hammerspace合作,一道开发了并行网络文件系统(NFS)。
两个集群均基于配备了最新高容量E1.S SSD的YV3 Sierra Point服务器平台。为了优化网络利用率,Meta进行了网络拓扑和路由的调整,并部署了英伟达的集体通信库(NCCL)。NCCL是一套针对英伟达GPU和网络进行优化的标准通信例程库。
Meta还在积极推进其PyTorch基础AI框架的发展,以应对数十万GPU的训练需求。Meta的技术项目经理凯文·李(Kevin Lee)、生产网络工程师阿迪·甘吉迪(Adi Gangidi)以及生产工程总监马修·奥尔德姆(Mathew Oldham)在最新博客中共同表达了公司的技术愿景和战略。他们强调,Meta将致力于人工智能软件和硬件的开放式创新,启动人工智能联盟,建立一个开放的生态系统,“为人工智能开发带来透明度、审查和信任,并带来每个人都能从中受益的创新,这些创新以安全和责任为首要考虑因素”。
这篇博文继续强调:“面对未来,我们意识到昨天和今天有效的方法可能无法满足明天的需求。因此,Meta将不断评估和改进其基础设施的各个方面,从物理和虚拟层到软件层等。我们的目标是创建一个既灵活又可靠的系统,以支撑快速发展中的新模型和研究工作。”