Mistral AI推出Mixtral 8x7B：一种改变机器学习的SMoE语言模型效果堪比GPT-3.5

## 划重点:

1. ? **创新模型介绍:** Mistral AI 的研究团队推出了基于 Sparse Mixture of Experts（SMoE）模型的 Mixtral8x7B 语言模型，采用开放权重。

2. ? **性能突出:** Mixtral8x7B 在多语言数据（32k令牌上下文大小）的预训练中表现优异，与Llama270B和GPT-3.5相比，性能不逊色甚至更好。

3. ? **广泛评估结果:** 与Llama模型进行了详细的比较，Mixtral 在包括数学、代码生成、阅读理解、常识推理等各类任务中均表现出色。

在最新的研究中，Mistral AI 的研究团队推出了一款名为 Mixtral8x7B 的语言模型，该模型基于新的 Sparse Mixture of Experts（SMoE）模型，具有开放权重。该模型被授权使用 Apache2.0许可证，并作为专家混合的稀疏网络仅用作解码器模型。

研究团队透露，Mixtral 的前馈块是从八个不同的参数组中选择的。每个层和令牌都有两个参数组，称为专家，由路由网络动态选择以处理令牌并将它们的结果以加法方式组合。由于每个令牌只使用总参数的一部分，这种方法有效地增加了模型的参数空间，同时保持成本和延迟的控制。

图源备注：图片由AI生成，图片授权服务商Midjourney

Mistral 通过使用32k token上下文大小的多语言数据进行预训练，表现出色，与Llama270B和GPT-3.5在多个基准测试中相当或更好。其主要优势之一是有效利用参数，允许在小批量大小时更快的推理时间，并在大批量大小时提高吞吐量。

Mixtral 在包括多语言理解、代码生成和数学等测试中，明显优于Llama270B。实验证明，Mixtral能够有效地从其32k令牌的上下文窗口中恢复数据，无论数据在序列中的长度和位置如何。

为确保公正准确的评估，研究团队使用了他们的评估流程重新运行了基准测试，详细比较了Mixtral和Llama模型。评估涵盖了数学、代码、阅读理解、常识思维、世界知识和流行的汇总发现等各种问题。

在0-shot环境中，对常识推理任务进行了评估，包括ARC-Easy、ARC-Challenge、Hellaswag、Winogrande、PIQA、SIQA、OpenbookQA和CommonsenseQA。在5-shot格式中，对世界知识任务进行了评估，包括TriviaQA和NaturalQuestions。阅读理解任务BoolQ和QuAC在0-shot环境中进行评估。数学任务包括GSM8K和MATH，而与代码相关的任务包括Humaneval和MBPP。研究还包括了对AGI Eval、BBH和MMLU的流行的综合发现。

研究还展示了 Mixtral8x7B – Instruct，这是一个专为指令优化的对话模型。在过程中使用了直接偏好优化和监督微调。在人工评估基准中，Mixtral – Instruct在与GPT-3.5Turbo、Claude-2.1、Gemini Pro和Llama270B – 聊天模型的比较中表现更好。类似BBQ和BOLD的基准显示出更少的偏见和更平衡的情感配置。

为促进广泛的可访问性和各种应用，Mixtral8x7B和Mixtral8x7B – Instruct都已获得Apache2.0许可证，允许商业和学术用途。通过添加Megablocks CUDA内核以实现有效的推理，团队还修改了vLLM项目。

论文网址:https://arxiv.org/abs/2401.04088

代码:https://github.com/mistralai/mistral-src

Mistral AI推出Mixtral 8x7B：一种改变机器学习的SMoE语言模型 效果堪比GPT-3.5

Mistral AI推出Mixtral 8x7B：一种改变机器学习的SMoE语言模型效果堪比GPT-3.5