最强开源大模型Llama 3发布！最大版本是4000亿参数规模！性能直逼GPT-4！

当地时间4月18日，Meta 官宣发布其最新开源大模型 Llama 3。目前，Llama 3 已经开放了 80亿和 700亿两个小参数版本，上下文窗口为8K。未来还有4000亿参数版本，支持多模态、超长上下文、多国语言！

Llama 3 的主要亮点包括：

在两个定制的 24K GPU 集群上、基于超过15万亿tokens的数据集上训练，是 Llama 2 数据集的 7 倍多，代码数据相当于 Llama 2 的 4 倍；支持 8K 长文本，是 Llama 2 容量的两倍；改进的 tokenizer 具有 128K token 的词汇量，可实现更好的性能；在大量重要基准测试中均具有SOTA性能；新能力范畴，包括增强的推理和代码能力；训练效率比 Llama 2 高 3 倍；安全性有明显进步，配备了Llama Guard 2、Code Shield等新一代的安全工具。

图注：训练数据

图注：安全改进

1. 性能全面领先的Llama 3

Meta 在官方博客中表示，“得益于预训练和后训练的改进，我们的预训练和指令微调模型是目前 80 亿和 700 亿参数尺度下最好的模型。”

虽然目前 Meta 仅开源了2个不同参数规模版本的模型，但其中700亿参数规模的模型评测结果极其优秀。

Llama 3 8B 在MMLU、GPQA、HumanEval等多项基准上均胜过 Gemma 7B 和 Mistral 7B Instruct。 Llama 3 70B 在MMLU、HumanEval和GSM-8K上战胜了Gemini 1.5 Pro，同时在五项测试上全面优于Claude 3系列的中杯模型Sonnet。 Llama 3 70B 最大的亮点是数学评测GSM8K的结果上得分93分！这个分数仅次于Claude3-Opus的95分，超过GPT-4，全球第二，是目前开源大模型中得分最高的一个。

下图是 Llama 3 预训练模型和其他同等规模模型的比较，前者表现出 SOTA 水平。

Llama 3 8B 完全打败了 Mistral 7B 和 Gemma 7B。不过推理能力，比 Gemma 7B 弱一些。与闭源的 Gemini Pro 1.0，以及开源的 Mixtral 8×22B 相比，Llama 3 70B在多项基准测试中拔得头筹。

图注：预训练模型在8B和70B的参数规模上取得的性能

下图是 Llama 3 指令微调模型和其他同等规模模型的比较，前者表现出 SOTA 水平。

Llama 3 8B同样超越了开源的Gemma 7B，以及Mistral 7B Instuct。 Llama 3 70B在推理（MMLU）、数学（GSM-8K）、甚至代码（HumanEval）基准上，比Gemini Pro 1.5和Claude 3 Sonnet更加亮眼。

图注：指令微调模型在8B和70B的参数规模上取得的性能

2. Llama 3最大版本是4000亿参数规模，性能直逼 GPT-4

Meta 官方宣布，Llama 3 有很多版本，其中最大的版本是4000亿参数规模，但是这个版本的模型还在训练中！官方没有明确说未来这个版本是否开源，但是也没有否认。

根据官方的截图，还在训练中的 Llama 3 400B 的 MMLU 得分86.1分，GSM8K 得分94.1分，与目前排名第一的 Claude3-Opus 差距非常小（MMLU与最高分差0.7分，GSM8K差0.4分）！

难以想象训练完的 Llama 3 400B 有多强，恐怕只有 OpenAI 的 GPT-5 能压他一头了吧。

英伟达Jim Fan认为，即将推出的Llama 3-400B+模型将成为社区获得GPT-4级别模型的重要里程碑。它将改变许多研究工作和草根初创公司的计算方式。

近期，Meta也将计划推出Llama 3的新功能，包括更长的上下文窗口和更强大的性能，并将推出新的模型尺寸版本和公开Llama 3的研究论文。

3. Llama 3的人工评估

此外，Meta 还开发了一套新的高质量人工评估数据集。

该数据集包含 1800 个提示，涵盖 12 个关键的应用场景：寻求建议、头脑风暴、分类、封闭式问答、编码、创意写作、提取、塑造角色、开放式问答、推理、重写和总结。

为了防止 Llama 3 在此评估数据集上出现过拟合，Meta 表示他们自己的团队也无法访问它。

下图显示了针对 Claude Sonnet、Mistral Medium 和 GPT-3.5 对这些类别和提示进行人工评估的汇总结果。

人工评估结果显示，Llama 3 70B 在指令调优后，表现远胜于Claude Sonnet、Mistral Medium、GPT-3.5 和 Llama 2，其胜率分别达到了 52.9%、59.3%、63.2%、63.7%。

Llama 3 70B 模型效果好于目前市场上的闭源模型（Claude Sonnet, Mistral Medium和GPT-3.5），可惜的是官方没有给出市场最强的2个闭源模型 GPT-4 以及 Claude3-Opus 的对比结果。

4. 网页版Meta AI免登录，随便聊

目前，Llama 3两种参数量的基础和Instruct版本都已上线Hugging Face可供下载。

下载链接：https://llama.meta.com/llama-downloads/
Github：https://github.com/meta-llama/

此外，微软Azure、谷歌云、亚马逊AWS、英伟达NIM等云服务平台也将陆续上线Llama 3。

同时，Meta还表示Llama 3会得到英特尔、英伟达、AMD、高通等多家厂商提供的硬件平台支持。

值得一提的是，Meta还放出了网页版Meta AI，由最新Llama 3加持，号称是全球顶尖的AI助手之一。现在已经覆盖 Instagram、WhatsApp、Facebook 等全系应用。

整个页面UI设计非常简洁，不仅可以对话，还支持生图功能。与ChatGPT-3.5免注册登录类似，与Meta AI聊天功能，进入网页随时随地即可开启，无需登录。

Meta AI 网址：https://www.meta.ai/

参考：
https://llama.meta.com/llama3/
https://ai.meta.com/blog/meta-llama-3/
https://fortune.com/2024/04/18/meta-ai-llama-3-open-source-ai-increasing-competition/
https://www.theverge.com/2024/4/18/24133808/meta-ai-assistant-llama-3-chatgpt-openai-rival

欢迎各位关注我的个人微信公众号：HsuDan，我将分享更多自己的学习心得、避坑总结、面试经验、AI最新技术资讯。