—1—
最强大模型 Llama 3.1-405B 简介
在历经了两天的提前“泄露风波”后,Llama 3.1 终于正式揭开面纱,由官方对外公布。
新版 Llama 3.1 将其上下文处理能力扩展至 128K,推出了 8B、70B 及 405B 三个不同规模的版本,再次单枪匹马地提升了大规模模型领域的竞争门槛。
对于 AI 大模型领域而言,Llama 3.1 405B 版本具有划时代的意义,它刷新了开源基础模型性能的极限。据 Meta 官方透露,该大模型在众多任务中的表现足以匹敌当前最优的闭源模型。
Llama3.1 405B数据集评测结果
Llama3.1 405B人工评估
—2—
Llama 3.1-405B 架构设计剖析
Llama 3.1共开源了8B、70B、405B三种参数量的模型,其中 405B 除了FP16精度,还有FP8量化版模型,针对8B额外开源了经过内容安全分类微调的Llama-Guard-3-8B。
架构设计主要看点总结如下:
1. Llama3.1 405B 依然使用 decoder-only 结构的 transformer,没有使用混合专家。
2. 上下文长度增加到 128K。
3. 在语言模型后训练阶段,405B 通过监督微调和直接偏好优化等,进一步提升了模型的性能和适应性。监督微调使用大量的人工标注数据来微调模型,使其能够更好地遵循人类的指令和偏好;直接偏好优化则通过学习人类的偏好来优化模型的输出,使其更加符合人类的期望。
4. 对于小参数量模型,Meta 使用 405B 模型去提升小参数量模型的效果。
—3—
Llama 3.1 预训练过程剖析
Llama 3.1 的预训练过程分为三个关键阶段:
1、初始预训练阶段;
2、长文本上下文预训练;
3、退火过程。
总体来看,这一流程与现有的一些开源模型训练方法相似,但技术报告中透露了众多精细的技术细节。以下是各阶段的详细描述:
初始预训练阶段:这一阶段遵循标准的预训练流程,训练初期采用较小的批量大小以保障训练稳定性,随后逐渐增大批量大小以提高训练效率,直至达到每批 16M 个token。为了增强模型在多语言和数学推理方面的能力,特别增加了非英语内容和数学数据的比重。
长文本上下文预训练阶段:在预训练的后半程,使用长文本数据进行训练,以支持高达 128K 个token的上下文窗口。在这一阶段,采取了逐步扩展上下文窗口的策略,对于 Llama 3 405B 模型,从最初的 8K token 上下文窗口开始,逐步扩展,最终达到 128K token 的窗口大小。此阶段消耗了大约 800B 个token的训练数据。
退火过程:在预训练的最后 4000 万个token期间,采取了线性降低学习率至零的策略,同时保持 128K 个token的上下文长度。在这一退火阶段,对数据混合比例进行了调整,增加了如数学、代码、逻辑等高质量数据的影响。最终,通过取退火期间多个模型检查点的平均值,形成了最终的预训练模型。在训练后期对高质量数据进行上采样,这一做法在当前也是较为普遍的做法。
—4—
Llama 3.1 的 Post-Traning 剖析
当前,大型语言模型(LLM)的后训练主要采用两种策略,第一种是借鉴自ChatGPT的 SFT+RM+PPO 模式,该模式运用了强化学习,涉及众多需要调整的超参数,过程较为复杂,不易实现;另一种策略是 SFT+DPO 模式,省略了PPO 强化学习部分,简化流程,更易于操作。
LLaMA 3.1 在后训练阶段主要采用了 SFT+DPO 模式,并加入了一些独特的设计。上图展示了 LLaMA 3.1 整个后训练流程。起初,使用人工标注数据训练RM 模型,以评估<Prompt, answer>数据的质量,随后利用 RM 进行拒绝采样。
具体来说,针对一个给定的人工 Prompt,模型生成多个回答,RM 对这些回答进行质量评分,选取评分最高的作为 SFT 数据,其余则弃用。这样筛选出的SFT 数据,结合专门用于提升代码、数学、逻辑能力的 SFT 数据,共同用于微调模型,得到 SFT 模型。
接着,利用人工标注数据通过 DPO 模型调整LLM参数,DPO 实质上是一个二分类任务,它从<Prompt,Good Answer,Bad Answer>的三元数据中学习,调整模型参数以促使模型输出 Good Answer,避免输出 Bad Answer。这样就完成了一个后训练迭代周期。上述过程会多次重复,每次流程相同,不同之处在于,在下一轮拒绝采样阶段生成回答的 LLM 模型,将选择上一轮流程中产生的若干不同 DPO 模型(具有不同超参数等)中表现最佳的一个。显然,随着迭代的进行,DPO 模型性能不断提升,因此拒绝采样中选出的最佳答案质量也逐步提高,进而使得 SFT 模型更加优秀,形成了一个正向反馈循环。可以看出,尽管 RLHF 和 DPO 两种模式都运用了 RM,但应用场景不同,RLHF 将 RM 评分用于 PPO 强化学习阶段,而 LLaMA 3.1 则利用 RM 筛选高质量的 SFT 数据。并且,由于拒绝采样的回答是由 LLM 生成的,这意味着在此过程中大量使用了合成数据来训练 SFT 模型。
—5—
LLama 3.1 405B 为何不用 MOE 架构?
大模型的 MOE 结构是否能够提升模型性能?答案并非必然。
早在 ChatGPT 流行之前,研究就已经得出结论,从模型性能影响的角度来看,MOE 结构相较于密集型(Dense)模型并不会带来额外的优势,有时甚至可能存在劣势。
MOE 架构的主要优点在于降低训练和推理的成本,但这需要以训练稳定性降低和推理时需要更多内存来存储增加的参数为代价。在用户数量庞大、请求频繁的情况下,推理成本占据的比重更大,此时 MOE 结构在推理方面更为友好,这也是为什么模型规模达到一定程度后,其结构会从 Dense 转向 MOE 的主要原因——这一转变更多是基于成本和效率的考量,而非性能。
我曾见过一些声称MOE结构性能更优的说法,但这些观点缺乏实证支持。Llama 3.1 405B 未采用 MOE 结构,技术报告指出,这是由于考虑到密集型模型在训练上更为稳定,因此选择了 Dense 结构。与 GPT 4 的 1.8T MOE 模型相比,405B 的 Dense 模型在性能上不相上下,甚至可能更胜一筹(当然,也不排除 GPT 4 可能已经是一个经过蒸馏的较小模型)。
—6—
有很多企业级落地实战案例,不方便公开
AI 大模型时代并不是你工作的终点,而是新旅程的起点。通过不断学习、积极转型和勇敢探索,正在用自己的方式书写着属于自己的辉煌篇章。让我们一起期待在 AI 大模型新时代创造更多的可能!
大模型的学习路线
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
为什么要做 RAG 什么是模型 什么是模型训练 求解器 & 损失函数简介 小实验2:手写一个简单的神经网络并训练它 什么是训练/预训练/微调/轻量化微调 Transformer结构简介 轻量化微调 实验数据集的构建 …第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。
总结
**文章总结:Llama 3.1-405B 模型解析及学习路线****一、LLama 3.1-405B 简介**
- Llama 3.1在历经泄露风波后正式公布,提供了8B、70B和405B三种规模的版本,将上下文处理能力扩展至128K。
- 405B版本在开源基础模型性能上取得极大突破,表现可匹敌封闭模型。
**二、Llama 3.1-405B 架构设计**
- 使用decoder-only结构的transformer,未采用混合专家(MOE)模式,注重训练稳定性和性能提升。
- 增加了上下文长度、回调和直接偏好优化,利用大参数量模型效果提升小模型表现。
**三、预训练过程**
- 初始预训练利用标准流程及大范围调整批量大小。
- 长文本上下文预训练旨在支持128K上下文窗口,分阶段实现。
- 退火过程降低学习率,利用高质量数据提升模型精度。
**四、Post-Training 阶段**
- 借鉴SFT+DPO模式进行后训练,得益于RM进行SFT数据质量评估的选择优化。
- 利用DPO模型对模型进行调整,显著提高模型生成回答的质量。
**五、MOE结构的权衡**
- 密集型(Dense)模型在性能上不逊于MOE结构,训练更稳定。
- MOE架构主要优势在于成本和推理效率,非性能提升。
- Llama 3.1 405B选择Dense结构以优化训练稳定性及性能。
**六、企业级落地及学习路线**
- 文章提到多个企业级应用案例但未公开,强调AI大模型时代的新机遇。
- 提供四阶段学习路线:初阶应用(10天)、高阶应用(30天)、模型训练(30天)、商业闭环(20天),旨在培养完整的AI模型训练及应用能力。
**总结**:Llama 3.1-405B作为一款划时代的基础模型,通过开放其架构设计、预训练及后训练过程,为AI领域提供了宝贵资源及 学习路径。通过深入学习和实践,不仅能掌握大模型AI的前沿知识,还能在未来的AI发展中占得一席之地。