当前位置:AIGC资讯 > AIGC > 正文

深度解读 Llama 3.1 技术报告:从405B参数到24000块H100集群

Meta在最近发布了他们的开源大模型Llama 3.1,引起了广泛的关注和讨论。随着热度逐渐退潮,Llama 3.1 的详细技术报告也公开了。这份报告揭示了很多关于Llama 3.1 的技术细节和实现原理。本文将从模型参数、基础设施、预训练、后训练等方面,详细剖析Llama 3系列模型的关键技术。

一、模型参数

Llama 3.1 最引人注目的地方就是其高达405B的庞大参数。虽然现今已经不再是纯粹的规模为王的时代,但Meta通过Scaling Law(缩放定律)来确定旗舰模型的最佳大小,以保证在特定基准的性能和经济效益之间找到平衡。

1.1 Scaling Law的挑战

Scaling Law的应用存在两个主要挑战:

现有的Scaling Law通常只能预测下一个词的损失,不能预测特定基准的性能。 Scaling Law可能会因为小计算量的预训练变得嘈杂和不可靠。

1.2 两阶段方法

Meta采用了两阶段方法来解决上述挑战:

确定最优模型在下游任务上的负对数似然(NLL)和训练FLOPs之间的相关性。 利用Scaling Law模型和更高计算FLOPs训练的旧模型,将NLL与基准任务的准确率相关联。

具体步骤如下:

保证在6×10^18 FLOPs到10^22 FLOPs之间的计算预算。 通过预训练模型构建Scaling Law,使用余弦学习率计划预热2000个训练步骤,峰值学习率设定在2×10-4到4×10-4范围内,并将余弦衰减设置为峰值的0.1。

二、基础设施

为了支持Llama 3.1 的训练,Meta整合了24000多块H100 GPU,重新搭建了生产集群。这个集群配备了80GB的HBM3和Meta的Grand Teton AI服务器平台,每个服务器配备八个GPU和两个CPU。

2.1 硬件架构

在服务器内部,八个GPU通过NVLink连接,模型的训练使用了Arista 7800交换机和Minipack2 OCP交换机,采用RoCE网络拓扑结构。通过三层CLOS网络连接,形成了一个拥有3072个GPU的pod,最终形成了24000个GPU的集群。

2.2 存储网络

为了支持庞大的模型训练,Meta构建了一个分布式文件系统,提供高达240PB的存储空间,并支持每秒2TB的持续吞吐量和每秒7TB的峰值吞吐量。通过这一系列设置,Meta希望将检查点期间的GPU暂停时间最小化,同时增加检查点的频率,从而减少恢复后丢失的工作量。

2.3 负载均衡和拥塞控制

由于大语言模型的训练会产生大量的网络流量,Meta采用了增强等价多路径路由(E-ECMP)协议,对RoCE数据包头中的额外字段进行哈希,从而在不同的网络路径上平衡网络流。此外,Meta还采用了深缓冲交换机,在骨干网络上进行部署,以降低集合通信模式引发的瞬间拥塞和缓冲问题。

三、预训练

Llama 3.1 的预训练数据包含截至2023年末的各种数据源,经过多次去重和数据清洗,以保证获得高质量的Token,同时删除大量个人身份信息和成人内容。

3.1 数据混合和退火

Meta开发了一个分类器对网络数据进行分类,并通过Scaling Law实验确定最佳的数据混合比例。最终的混合数据集中包含大约50%的一般知识token,25%的数学和推理token,17%的代码token,以及8%的多语言token。此外,Meta还通过退火技术对高质量数据进行上采样,以提高预训练模型的性能。

3.2 训练方法

405B模型的预训练采用了余弦学习率计划,峰值学习率为8×10-5,线性预热8000步,然后在1200000个训练步骤内衰减到8×10-7。Meta发现,在训练初期使用较小的批量大小可以提高训练的稳定性,随后再增加批量大小,从而提高效率。

四、后训练

后训练阶段主要包括奖励和微调模型。Meta使用人类标注偏好数据训练的奖励模型,以及监督式微调(SFT)和直接偏好优化(DPO)。

4.1 奖励模型和SFT

基于最后405B的检查点,Meta训练了一个涵盖不同能力的奖励模型,并使用偏好数据进行了奖励建模,标注被划分成四个偏好等级。随后,研究人员使用奖励模型对人工标注的提示进行了拒绝采样,并将拒绝采样数据和其他数据源合并,再使用标准的交叉熵损失对预训练语言模型进行了监督式微调。

4.2 DPO

在SFT之后,Meta进一步使用DPO对SFT模型进行训练,以便与人类的偏好对齐。相比于PPO,DPO针对大参数模型的计算量更少,并且性能更好。此外,为了提高DPO训练的稳定性,研究人员对DPO进行了多项修改,包括屏蔽特殊格式的Token,并添加了一个额外的负对数似然损失项。

五、推理

Llama 3.1 的405B模型在FP16推理时至少需要810GB的显存,至少要两台装有8个H100的服务器。如果服务器之间有NVLink和NVSwitch高速互联,可以使用张量并行,而在带宽较低或延迟较长的情况下,则需要使用流水线并行,并使用微批处理来提高吞吐量。

FP8推理则只需要一台服务器即可部署,不仅能够让预填充阶段的吞吐量提高50%,而且在解码阶段也能获得更好的吞吐量-延迟权衡。

结论和未来展望

Llama 3.1 技术报告详细揭示了Meta在大模型训练上的诸多技术细节和挑战。通过分析这些细节,可以看出Meta在硬件架构、数据处理、训练方法等方面都进行了大量的创新和优化。未来,随着模型和集群规模的进一步扩大,Meta还将面临更多的挑战,但可以预见的是,这些技术的进步将为大语言模型的发展带来更多可能性。

总结

**总结:Meta开源大模型Llama 3.1技术深度剖析**
Meta近期发布的开源大模型Llama 3.1,凭借其高达405B的庞大参数规模,吸引了业界的广泛关注。随着技术报告的公开,Llama 3.1在模型参数、基础设施、预训练、后训练及推理等方面的关键技术细节得以全面展现。
**一、模型参数**
Llama 3.1通过应用Scaling Law确定最佳模型规模,平衡性能与经济效益。面对Scaling Law的预测局限性和小计算量预训练的不可靠性,Meta采用两阶段方法,结合下游任务负对数似然(NLL)与训练FLOPs的相关性,以及Scaling Law模型与旧模型数据,确保模型在特定基准上的表现。
**二、基础设施**
为支持Llama 3.1的训练,Meta构建了包含24000块H100 GPU的庞大集群,采用高效的网络拓扑结构和分布式文件系统,确保训练过程中的数据高速传输与存储。此外,通过负载均衡和拥塞控制策略,优化网络流量,提升训练效率。
**三、预训练**
Llama 3.1的预训练数据经过严格筛选与清洗,确保高质量与多样性。Meta通过数据混合与退火技术,优化数据分布,提升模型性能。预训练过程中,采用余弦学习率计划,结合逐步增大的批量大小,确保训练的稳定性和效率。
**四、后训练**
后训练阶段,Meta利用奖励模型和SFT、DPO等技术,进一步微调模型,使其与人类偏好对齐。奖励模型基于偏好数据训练,用于指导SFT过程;DPO则在SFT基础上,通过优化计算量和性能,提升模型质量。
**五、推理**
Llama 3.1在推理阶段展现出强大的性能。FP16推理需至少两台服务器支持,而FP8推理则仅需一台,显著提升部署灵活性和吞吐量。通过张量并行和流水线并行等策略,优化推理过程,满足不同场景下的需求。
**结论与未来展望**
Llama 3.1技术报告的发布,不仅展示了Meta在大模型训练领域的深厚积累,也为未来大语言模型的发展提供了宝贵的参考。随着技术和资源的不断进步,Meta将继续面临挑战,但其在硬件架构、数据处理、训练方法等方面的创新,无疑将为大语言模型的未来带来更多可能性。

更新时间 2024-08-27