小模型,成为本周的AI爆点。
与动辄上千亿参数的大模型相比,小模型的优势是显而易见的:它们不仅计算成本更低,训练和部署也更为便捷,可以满足计算资源受限、数据安全级别较高的各类场景。因此,在大笔投入大模型训练之余,像 OpenAI、谷歌等科技巨头也在积极训练好用的小模型。先是HuggingFace推出了小模型SmoLLM;OpenAI直接杀入小模型战场,发布了GPT-4o mini。
GPT-4o mini发布同天,欧洲最强AI初创公司Mistral立马发布旗下最新最强小模型——Mistral NeMo。这个小模型由 Mistral AI 和英伟达联合打造,参数量为120亿(12B),上下文窗口为128k。这是一款寻求在不依赖大量云资源的情况下实施 AI 解决方案的企业的强大工具。
卓越性能
Mistral NeMo支持128K上下文,能够更加连贯、准确地处理广泛且复杂的信息,确保输出与上下文相关。
与同等参数规模模型相比,它的推理、世界知识和编码准确性都处于领先地位。
下表结果所示,除了在MMLU基准上,Mistral NeMo不如Gemma 2 9B。但在多轮对话、数学、常识推理、世界知识和编码等基准中,超越了Gemma 2 9B和Llama 3 8B。
Mistral在Apache2.0许可证下发布了预训练的基本检查点和指令微调检查点,允许商用。
Mistral NeMo 经过量化感知训练,可在不损失任何性能的情况下进行 FP8推理。
此外,模型使用FP8数据格式进行模型推理,这可以减少内存大小并加快部署速度,而不会降低准确性。这意味着,模型可以流畅丝滑地学习任务,并更有效地处理不同的场景,使其成为企业的理想选择。
这种格式可以在任何地方轻松部署,各种应用程序都能灵活使用。因此,模型可以在几分钟内,部署到任何地方,免去等待和设备限制的烦恼。
Mistral NeMo瞄准企业用户的使用,采用属于NVIDIA AI Enterprise一部分的企业级软件,具有专用功能分支、严格的验证流程以及企业级安全性的支持。开放模型许可证也允许企业将Mistral NeMo无缝集成到商业应用程序中。
Mistral NeMo NIM专为安装在单个NVIDIA L40S、NVIDIA GeForce RTX 4090或NVIDIA RTX 4500 GPU的内存上而设计,高效率低成本,并且保障安全性和隐私性。也就是说,单个英伟达L40S,一块GPU就可跑了。
先进模型
Mistral AI和英伟达各自擅长的领域结合,优化了Mistral NeMo的训练和推理。模型利用Mistral AI的专业知识进行训练,尤其是在多语言、代码和多轮内容方面,受益于英伟达全堆栈的加速训练。它专为实现最佳性能而设计,利用高效的模型并行技术、可扩展性以及与Megatron-LM的混合精度。该模型使用NVIDIA NeMo的一部分Megatron-LM进行训练,在DGX Cloud上配备3,072个H100 80GB Tensor Core GPU,由NVIDIA AI架构组成,包括加速计算、网络结构和软件,以提高训练效率。
民主化 AI:面向大众的多语言模型
Mistral NeMo模型专为全球多语言应用程序而设计。它受过函数调用训练,拥有一个大型上下文窗口,在英语、法语、德语、西班牙语、意大利语、葡萄牙语、中文、日语、韩语、阿拉伯语和印地语方面表现尤为突出。可以说,这是将前沿人工智能模型带到全世界不同语言使用者手中的重要一步。下图是Mistral NeMo 在多语言基准测试中的表现:
Tekken:更高效的分词器
Mistral NeMo使用基于Tiktoken的全新分词器——Tekken,该分词器已针对100多种语言进行训练,并且比以前的Mistral模型中使用的SentencePiece分词器更有效地压缩自然语言文本和源代码。具体而言,在压缩源代码、中文、意大利语、法语、德语、西班牙语和俄语方面的效率提高了约30%;在压缩韩语和阿拉伯语方面的效率也分别提高了2倍和3倍。与Llama 3分词器相比,Tekken在压缩大约85%的所有语言的文本方面表现更为出色。
指令微调
Mistral NeMO 经历了高级微调和调整阶段。与 Mistral 7B 相比,它在遵循精确指令、推理、处理多轮对话和生成代码方面表现得更好。
小结
随着 AI 领域的不断发展,Mistral-NeMo 的发布标志着为企业提供更可访问、高效和强大的 AI 工具方面的重要里程碑。这将如何影响更广泛的 AI 生态系统还有待观察,但可以肯定的是:将 AI 能力更接近最终用户的竞赛正在升温,Nvidia 和 Mistral AI 已经在这一方向上迈出了大胆的一步。用户可以立即通过ai.nvidia.com作为NVIDIA NIM体验Mistral NeMo,可下载的NIM版本即将推出。
高性价比GPU算力:https://www.ucloud.cn/site/active/gpu.html?ytag=gpu_wenzhang_0722_shemei
总结
**小模型引领AI新风尚:Mistral NeMo发布引发热议**本周,AI界聚焦于小模型的崛起,这些计算成本更低、训练部署便捷的小型模型,正成为大模型之外的重要补充。OpenAI、谷歌等科技巨头纷纷加码,其中OpenAI的GPT-4o mini和Mistral AI携手英伟达推出的Mistral NeMo尤为引人注目。
**Mistral NeMo:小身材,大作为**
Mistral NeMo以120亿参数量亮相,搭配128K的上下文窗口,展现出卓越的性能。它在多轮对话、数学、常识推理、世界知识和编码等基准测试中均超越同类竞品,特别是在多语言支持上,涵盖英语、中文等十多种语言,实现了AI能力的全球覆盖。
**技术亮点**
- **高效推理**:支持FP8推理,确保性能不受损,同时减少内存占用,加快部署速度。
- **量化感知训练**:经过特别优化,能在不牺牲准确性的前提下提升计算效率。
- **Tekken分词器**:创新性地采用Tekken分词器,较之前技术显著提升压缩效率,对多种语言的文本和代码均有良好支持。
- **指令微调**:通过高级微调和调整,模型在遵循指令、处理多轮对话和生成代码方面表现出色。
**面向企业用户的全方位解决方案**
Mistral NeMo专为计算资源受限但需求多样的企业用户设计,具备以下特点:
- **低门槛部署**:基于NVIDIA AI Enterprise,可轻松集成到各种商业应用中,部署快捷方便。
- **高效能低成本**:专为单个NVIDIA GPU优化,高效利用硬件资源,降低使用成本。
- **高安全性**:严格的验证流程和企业级安全支持,确保数据安全和隐私保护。
**AI民主化的重要里程碑**
Mistral NeMo的发布,标志着AI技术向更广泛、更基层的应用场景延伸,进一步推动AI技术的民主化。随着技术的不断进步和应用的深化,我们有理由相信,未来AI将更加贴近人们的生活和工作,为企业和个人创造更多价值。
**用户体验**
目前,用户可以通过NVIDIA平台体验Mistral NeMo的卓越性能,随着NIM版本的推出,更多便捷和强大的功能将陆续解锁,值得期待。