从LLaMa 3 技术报告，再看LLM构建过程 ——《带你自学大语言模型》系列（番外）

本系列目录

《带你自学大语言模型》系列部分目录及计划，完整版目录见：带你自学大语言模型系列 —— 前言

第一部分走进大语言模型（科普向）

第一章走进大语言模型

1.1 从图灵机到GPT，人工智能经历了什么？——《带你自学大语言模型》系列

1.2 如何让机器说人话？万字长文回顾自然语言处理（NLP）的前世今生 —— 《带你自学大语言模型》系列

第三节 Transformer做对了什么？（next

第四节大语言模型，大在哪？

… …

第二部分构建大语言模型（技术向）

第二章基础知识

2.1 大语言模型的训练过程 —— 《带你自学大语言模型》系列

2.2 大模型理论基础：Transformer （next）

2.3 大模型硬件基础：AI芯片（上篇） —— 《带你自学大语言模型》系列

大模型硬件基础：AI芯片（下篇）（next）

【番外】从LLaMa 3.1技术报告，再看LLM构建过程（本篇）

第三章预训练

… …

欢迎关注同名公众号【陌北有棵树】，关注AI最新技术与资讯。

写在前面

上周LLM圈的大事件，莫过于LLaMa 3.1和 Mistral Large 2这两个开源模型的发布。先是 Meta 发布LLaMa 3.1系列开源模型，包括 8B、70B和405B三个版本，在多项基准测试中，LLaMa 3.1 405B甚至可以超越闭源模型 GPT-4o和Claude 3.5 Sonnet。

随后，Mistral发布 Mistral Large 2，1230 亿个参数，只有LLaMa 3.1 405B的1/3，但是在代码生成、数学和推理方面与 CPT-4 和 LLaMa 不相上下。

要说性能提升，早已激不起大家的热情，毕竟这一年里，每隔一段时间SOTA模型就易主一次，大家早都看麻了… 这次让大家振奋的是，开源模型首次做到了与闭源LLM不相上下，甚至更胜一筹。

开源和闭源不是技术之争，而是商业模式之争。只要钱、卡、人三要素齐备，开源也可以比闭源好，况且现在的开源也不是真正意义的开源。李彦宏和扎克伯格的所有言论，也都是屁股决定脑袋，大家听听就好，不要过于较真，有自己的判断就好。

本节目录

2.2.1 LLaMa3 几个关键点 2.2.2 技术报告组成结构 2.2.3 LLaMa3 模型概述 2.2.4 预训练阶段 2.2.4.1 数据 2.2.4.2 模型结构 2.2.4.3 基础设施 2.2.5 后训练阶段 2.2.5.1 数据 2.2.5.2 模型 2.2.5.3 模型能力增强

2.2.1 LLaMa 3 的几个思考点

1、405B大模型的作用不仅仅在于提供服务，还将成为微调和蒸馏较小模型的最佳选择，同时也可以为训练小模型生产数据。前OpenAI创始成员 Andrej Karpathy在评价GPT-4o Mini时也发表过类似观点：“模型必须先变大，然后才能变小。因为我们需要它们（自动）帮助重构训练数据，使其成为理想的、合成的格式。”

2、合成数据的重要程度日渐增强。尤其是在后训练的有监督微调阶段，在朝着合成数据占主导的趋势演进。在技术报告的「4.3 能力增强」章节，会看到很多地方采用了合成数据。

3、LLaMa 3.1 405B 并没有像之前大家预想的使用 MOE架构，这主要是出于模型稳定性的权衡。当前采用MOE架构，大多是出于效率和成本的考量。在报告「9.1 Language」章节有提到，Llama 3的性能优于MOE模型，表明密集架构并不是模型能力的限制因素，但在训练和推理效率以及大规模模型稳定性方面仍然存在许多权衡。（但随后发布的Mistral Large 2 让这点有些存疑，后续继续观察…）

4、目前看来，405B部署成本高，速度一般。随后发布Mistral Large 2也侧面说明了这一点，用不到三分之一的参数量性能就可以媲美Llama 3.1 405B，也不逊于GPT-4o、Claude 3 Opus等闭源模型，说明LLaMa还有优化空间。

5、模型量化或许会成为未来新趋势，报告中也提到了将模型从BF16量化至FP8，让405B模型能够在单一服务器节点内运行，提升405B模型的实用性。

LLaMa 3 还随之公开了一篇长达92页的技术报告，这篇报告含金量极高，可以说是详细介绍了当前最领先的大模型的构建过程。

AI2的研究员Nathan Lambert估计，这份90页的Llama 3.1论文，将直接把开源模型的进展往前推上3-9个月。

同时，这篇技术报告，几乎涵盖了LLM构建过程中涉及的所有技术。正好借着解读这篇报告，以LLaMa 3为例，再次梳理LLM构建过程中涉及的关键技术。

本篇报告涉及的技术点，后续都会按照专题分别进行详细介绍和横向对比，主要是我看到新模型的技术报告就忍不住盘一下，所以加更了本篇??。

2.2.2 技术报告组成结构

【1】Introduction：先对LLaMa 3.1 做了简要介绍，包括模型的2个训练阶段；在训练过程中着重关注的三个因素：数据、规模、复杂性管理；以及LLaMa 3.1的性能评估简介。

【2】General Overview：对预训练和后训练过程进行了简要介绍，并简单说了如何将视觉和语音合并到LLaMa 3中。

【3】Pre-Training：预训练阶段主要包括：预训练数据、模型结构、基础设施和训练效率、训练方案四个部分

【4】Post-Training：后训练阶段主要包括：模型、后训练数据、能力增强。

【5】Results：分别对预训练模型和后训练模型进行基准测试。

【6】Inference：主要讲了推理阶段的2个主要技术优化：流水线并行和 FP8量化

【7】Vision Experiments：主要从数据、模型架构、模型扩展、预训练、后训练几个方面，介绍如何将视觉能力合并到LLaMa 3.

【8】Speech Experiments：也是主要从数据、模型架构、训练方案几个方面介绍将语音能力合并到LLaMa 3.

【9】Related Work：从语言模型和多模态两个方面总结了LLaMa 3的相关工作，语言模型方面提到了规模、小模型、模型架构、开源、后训练这几个方面的创新性工作，多模态主要提到了图像、视频、语音。本节都是简短概括，详细的在前面的章节。

【10】Conclusion：结论

2.2.3 LLaMa 3模型概述

LLaMa 3的训练过程分为两个阶段：Pre-Training（预训练阶段）和Post-Training（后训练阶段）。

预训练阶段与之前 2.1 大语言模型的训练过程系列讲的预训练过程类似，LLaMa 3使用15.6T Tokens的数据集，在8k Tokens的上下文窗口，训练了405B参数的大模型，区别在于LLaMa 3继续进行预训练，将上下文窗口调整至128k。

后训练阶段对应 2.1 大语言模型的训练过程中的有监督微调阶段和 RLHF阶段，不过LLaMa并没有采用RLHF，而是使用DPO（直接偏好优化）的技术方案，然后进一步整合了工具使用、数学推理、代码等其他能力。

此外还训练了一个视觉适配器和一个语音适配器，用于将多模态能力融合到LLaMa 3。

2.2.4 预训练阶段

2.2.4.1 数据

【1】数据预处理

预训练的大部分数据是来源于互联网，需要对数据进行前置的预处理，数据处理主要包括如下步骤：

一、隐私数据和安全过滤

二、文本提取和清理

（1）构建了一个提取HTML的自定义解析器，并优化模板去除和内容召回的精度。同时，对包含数学和代码内容的HTML进行了额外处理，确保能正确提取出内容。研究人员在处理过程中还发现，相比纯文本，带有标记符会对模型的性能有不好的影响，所以删除了所有标记符。

（2）去重：主要包括URL级、文档级、行级重复数据的删除。

三、启发式过滤：用启发式的方法过滤低质量、有异常值和重复过多的文档，具体如下：

（1）用重复N-Gram覆盖率来删除由重复内容组成的行

（2）用 “dirty word”过滤封锁列表未覆盖的成人网站

（3）使用标记分布 Kullback-Leibler 过滤掉与训练语料库分布相比含有异常token的文档。

四、训练质量分类器模型

五、代码和推理数据：构建特定的流水线来提取代码和数学相关的网页

六、针对多语言数据进行了如下处理

（1）通过语言识别模型将文档分类为 176 种语言

（2）在每种语言的数据中执行文档级和行级重复删除。

（3）应用特定语言的启发式方法和基于模型的过滤器来删除低质量文档。

**
**

【2】数据配比

为了确定最合适的数据配比，Meta研究人员进行了如下的工作：

1、首先开发了一个分类器对网络数据进行分类。

2、为了确定最佳的数据配比，研究人员进行了Scaling laws实验，当然Scaling laws实验得目的不只是确定配比，还要预测最合适模型大小，405B就是这样算出来的，报告中也写了详细的过程，后面再细写

3、最终确定的数据配比为：通用知识50%、数学和推理25%、代码17%、多语言8%

2.2.4.2 模型结构

LLaMa 3模型结构上依旧使用基于解码器的Transformer架构，这已经几乎成为业内共识了，相比于LLaMa 3做了如下几个优化：

（1）GQA，8-kv head，以此提高推理效率

（2）405B的模型层数是126 层，减掉了2层，这是为了训练阶段方便流水线并行切分。

（3）词表大小为128K，词汇表结合了来自 tiktoken3 分词器的 100K tokens 和额外的 28K tokens

（4）RoPE theta 调到了500000

2.2.4.3 基础设施和训练优化

报告花了很长篇幅来介绍LLaMa 3训练基础设施，以及训练过程中提升效率的方法，可以说是诚意满满了，万卡集群的训练经验是十分稀缺的。包括包括如何并行化、保持系统可靠性、训练过程中什么情况容易失败等等…这些细节都藏在了这篇技术报告中。

2.2.4.3.1 基础设施

首先从计算、存储、网络三个方面来看基础设施。

计算

采用8卡的H100-80GB SXM服务器, 物理服务器采用OCP Grand Teton平台。每个服务器配备了8个GPU和2个CPU。8个GPU通过NVLink连接。使用MAST调度训练作业。

存储

存储采用了自研的分布式文件系统Tectonic[3], 7500台服务器提供240PB的存储能力, 支持平均2TB/s峰值7TB/s的写入能力

网络

每个机柜放置两台H100服务器, 每个服务器8个400Gbps单口的网卡, 然后两台服务器连接到同一个TOR Switch上

不同参数规模的模型采用了不同的网络：

小模型是使用Nvidia Quantum2 InfiniBand网络进行训练的。

405B大模型采用了基于 Arista 7800 和 Minipack2 开放计算项目（OCP）机架交换机的 RDMA over Converged Ethernet（RoCE）网络。报告中详细说明了RoCE网络的拓扑结构和负载均衡策略。

RoCE网络集群由24K GPU组成，通过三层Clos网络进行连接。这里有一个细节报告中没有说，RoCE集群是24K GPU组成，但训练405B说是只用了16K GPU，具体没有细说。

底层每个机架两台H100服务器（托管16个GPU），每个服务器8个400Gbps单口的网卡，并通过单个Minipack2机架顶部(ToR)交换机连接。

中层192个机架通过集群交换机连接，形成一个拥有3,072个GPU的pod。

顶层8个pod通过聚合交换机连接，形成一个24K GPU集群。

一个pod内的192个机柜，按照1:1无收敛的方式连接到Cluster交换机。不过，pod之间的带宽有1:7的收敛比，会拖慢集合通信的性能。所以，LLaMa 3的模型并行方法和Job训练调度器都针对这种网络拓扑进行了优化，目的是最小化跨pod的网络通信。

2.2.4.3.2 并行策略

LLaMa 3采用了4D并行策略，之前比较常提的是3D并行策略，本次相比之前多了一个CP并行（上下文并行），这里先给出一些基本概念介绍，关于分布式并行，后面专门一篇细讲。

张量并行性在不同的设备上将单个权重张量分割成多个块。

流水线并行性通过层将模型垂直划分为多个阶段，以便不同的设备可以并行处理模型管道的不同阶段。有一点值得注意，在PP并行时, 模型结构上从128层降低到了126层，第一个Stage和最后一个Stage仅有7层, 中间的每个Stage有8层。采用这种首尾各少一层的方式是为了平衡每层的计算量和内存用量。

上下文并行性通过将输入上下文划分为多个部分，减少由于长序列长度输入带来的内存瓶颈。

数据并行采用完全分片的数据并行，处理数据时在多个GPU上并行同步每个训练步骤后的模型、优化器和梯度。

通过采用上述方案，GPU利用率如下：

可以看到尽管使用了NVDIA的H100，目前GPU的利用率仍然是在38%~43%之间，还存在优化空间。

2.2.4.3.3 稳定性

在整个54天的训练中, 遇到了466次任务中断, 其中包括47次主动中断用于调整数据集升级Firmware等，其余419次是意外的中断。因为是自动化运维, 只有3次非预期中断需要人工干预。

还提供了故障事件列表:

因为采用新的Spine-Leaf架构, 出现GPU故障时，可以很容的进行宕机迁移,所以很多情况不需要人为干预很快就切换掉，很快重新拉起。

对于交换机和网络故障，也可以做到快速迁移，因此整体在模型训练中实现了90%的有效训练时间。

2.2.4.3 训练方案

Llama 3 405B 的方案包括三个主要阶段：(1) 初始预训练，(2) 长上下文预训练，(3) 退火。

LLaMa的训练批次策略值得一提，概括来说是初期采用小批次，然后逐渐加大。报告中提到他们发现这种训练方式非常稳定。

最开始的批次大小和序列长度分别为 4M tokens 和 4096，在训练252M tokens 后，翻倍至 8M tokens 和 8192，后续再翻倍至 16M，直到达到 2.87T tokens 的预训练量。

另外就是数据配比，报告中提到在训练期间对数据的配比做了几次调整，并且增加了非英语数据在预训练数据中的比例，前文中也有提到。

2.2.5 后训练阶段

2.2.5.1 数据

后训练阶段的数据主要包括偏好数据和有监督微调数据

偏好数据

偏好数据标注过程与 LLaMA 2 类似，每个轮次后部署多个模型进行标注，并为每个用户提供来自两个不同模型的两个结果（模型是使用不同的数据混合和对齐方式进行训练的）。标注时要求标注人员提供 4 个偏好等级：明显更好（significantly better）、更好（better）、略好（slightly better）、勉强更好（marginally better）。

下表给出了关于偏好数据的统计情况：

有监督微调数据

有监督微调数据主要由以下来源：

（1）人类注释收集的提示，拒绝采样的响应

（2）针对特定能力的合成数据

（3）少量人类策划的数据

下表给出了关于有监督微调数据的统计情况：

数据处理

后训练阶段的数据处理，主要包括数据清洗和数据修剪两方面。其中关于数据修剪，报告中介绍了（1）主题分类；（2）质量评分；（3）难度评分；（4）语义去重。这部分也属于目前相对常规的一些数据操作，详细内容放到写微调阶段数据处理时再整体细写。

2.2.5.2 模型

后训练阶段的模型主要包括奖励模型和有监督微调模型。训练过程如下图所示：

后训练阶段包括多轮，同时每轮又有多个阶段：

多阶段是指，首先使用人类标注偏好数据训练 Reward 模型，使用 SFT 数据训练 SFT 模型，以及使用 DPO 训练 DPO 模型，最后的 DPO 模型用于下一轮的训练。

多轮是指上面的步骤总共迭代6轮，每轮都会收集新的人类偏好标注数据以及 SFT 数据，并且会从最新的模型中采样合成数据。

2.2.5.3 模型能力增强

LLaMa 3还针对特定的能力对模型进行了增强，其中包括了代码能力、多语言能力、数学和推理能力、工具使用能力等等

这部分内容对于各行业如何对模型进行专业领域能力增强，有着十分重要的参考意义。这里简要介绍2个有代表性的。

**
**

代码能力

代码能力的增强主要分为了4步：

（1）训练代码专家

（2）生成合成数据

（3）在拒绝抽样过程中的系统提示导向

（4）使用执行和模型作为裁判信号过滤训练数据

**
**

数学与推理能力

首先列出了解决数学与推理问题面临的几个挑战：（1）缺乏提示；（2）缺乏真实的思考链；（3）中间步骤不正确；（4）教会模型使用外部工具；（5）训练与推理之间的差异；

为了解决这些挑战，Meta主要采用了下面这些方法：

（1）解决缺乏提示不足的问题：从预训练数据中提取数学相关的数据，将其转化成问答格式，然后进行有监督微调。

（2）用带有推理步骤的数据微调模型：用LLaMa 3为每个prompt生成多个推理步骤的结果数据，然后过滤出结果正确的步骤数据，再用这些数据进行模型的有监督微调。

（3）将代码和文本推理穿插组合，

（4）从错误和反馈中进行学习：通过让模型进行错误纠正

写不完了写不完了?…后面有点潦草了，望见谅（但看我后台数据，大部分人也读不到最后??），原本还想把量化、评估、 Scaling laws实验的细节、集合通信、多模态写一写的，但是现在已经周一早晨了，下次一定（也可能是融合到后续的子章节里）…

**
**

参考资料

[1] https://ai.meta.com/research/publications/the-llama-3-herd-of-models/

[2]https://llama.meta.com/

[3]https://ai.meta.com/blog/meta-llama-3-1/

总结

llama 预训练语言模型大语言模型 gpu 服务器 token 大模型合成数据上下文训练数据基础设施 llm gpt 多模态数据处理流水线开源模型 aws 稳定性