微软 Phi-3.1 Mini (3.8B)：刚刚进行了疯狂升级（击败 Llama-3 和 Qwen2）

原创 Aitrainee AI进修生 2024年07月06日 15:16 湖南

Aitrainee | 公众号：AI进修生

?这是一个新模型，据称可以击败 Llama-3、Qwen2、Deepseek 和其他开源 LLM 等模型，同时体积更小。我将在这篇文章中对其进行测试。

前些日子，微软发布了他们的Phi系列模型。首先，他们推出了Phi-3 Mini模型，这是一个4B参数的模型，接着发布了7B和14B的小型和中型模型，然后又发布了Mini Vision模型。这些模型表现都相当出色，完全符合微软的预期。

然而，我觉得最令人印象深刻的是这个4B参数的Mini模型。尽管体积小巧，但知识储备丰富，因此我最近常用它。微软最近又对这个Mini模型进行了升级，使其性能更上一层楼。他们仍称其为Phi-3 Mini模型，但许多人称其为Phi-3.1，这个名称更加准确。

这次更新仅针对Phi-3 Mini模型，性能提升了接近15%。他们说这个更新是基于客户反馈，并包含了更多的后期训练数据，显著提高了指令遵循和结构化输出的表现，还增强了多轮对话质量、系统标签支持以及推理能力，总体上是全面的改进。

让我们看看他们分享的最新基准测试数据。在指令硬和额外硬类别中，提升不大，但在指令挑战基准测试中，分数从24.6提高到了42.3，几乎提升了一倍。在Json结构化输出方面，从11.5提升到了52.3，提升了约五倍。在XML结构化输出方面，也有显著提升，从14.4提高到了49.8，大约是四倍的提升。

此外，在GP QA和MML方面也有不错的提升，这些改进都很酷。他们还在几乎所有平台上更新了这个新模型，包括Hugging Face和Azure AI Studio，所以你可以在Azure AI Studio上免费试用，或者如果你想本地使用，可以从Llama或Hugging Face上获取这个模型。

现在，让我们来测试一下这个模型的表现。像往常一样，我会用一些问题来评估它，这些问题涵盖从简单语言任务到编程。

第一个问题是找出与高植物名称押韵的数字，答案应该是“三”或“九”。让我们发送问题并查看答案。好，它没有回答正确，因此这个问题算失败。

第二个问题是：我有两个苹果，然后买了两个，做了一个苹果派，用了两个苹果，吃掉一半苹果派后还剩多少苹果？答案应该是两个。让我们发送问题并查看答案。好，它虽然推理正确，但最后给出了错误答案，这也是失败。

第三个问题是：Sally有三个兄弟，每个兄弟有两个姐妹，Sally有几个姐妹？答案应该是一个。它再次推理正确，但给出了错误答案，因此再次失败。

第四个问题是：如果一个正六边形的短对角线是64，那么长对角线是多少？答案应该是73.9。它再次回答错误，因此也失败了。

接下来是编程问题：创建一个点击按钮会爆炸彩纸的HTML页面，可以使用CSS和JS。我们发送问题并查看答案。

好，它生成的代码运行良好，这是一个通过。

接下来的问题是：编写一个只输出函数的Python程序，该函数打印接下来的20个闰年。我们发送问题并查看答案。好，它生成的代码正常运行，这也通过了。

下一个问题是生成一个蝴蝶的SVG代码。它生成了代码，但只有一个方块，因此这是失败。

下一个问题是：编写一个现代且简洁的AI公司着陆页面HTML代码，包含动画效果。生成的代码虽然很基础，但比Gemma生成的1970年代风格页面要好，因此算通过。

最后一个问题是编写一个在终端上运行的Python版生命游戏。我认为这可能行不通，但还是试试吧。它生成了程序，但要求一些输入却无法运行，因此这也不通过。最终结果是它在三个问题上通过，两个问题非常接近。

总的来说，考虑到它的体积，这个模型表现相当不错，尤其在编程方面表现出色，这也是我喜欢它的原因。它真的很酷。

希望这篇文章对你有帮助，感谢阅读！

视频教程

https://www.youtube.com/watch?v=HribLmgpS5k

参考链接：
[1]https://ollama.com/library/phi3:3.8b
[2]https://huggingface.co/lmstudio-community/Phi-3.1-mini-4k-instruct-GGUF

总结

**微软Phi-3.1 Mini模型升级解析**
微软近期对其Phi系列模型中的Phi-3 Mini进行了显著升级，并命名为Phi-3.1 Mini（3.8B），据称这一新版本在性能上有了近15%的提升，成功击败了包括Llama-3、Qwen2在内的多个开源LLM模型。尽管体积小巧，但Phi-3.1 Mini展现出了强大的知识储备和出色的性能。
**性能提升亮点**
- **指令遵循与结构化输出**：新版本的模型在指令遵循和结构化输出方面取得了显著进步，特别在Json和XML结构化输出方面，分数提升分别高达约五倍和四倍。
- **多轮对话与推理能力**：除了基础能力，新模型还在多轮对话质量、系统标签支持以及推理能力方面有了加强。
**实际应用测试**
通过对Phi-3.1 Mini进行一系列问题的测试，包括语言理解、数学推理和编程任务，结果显示该模型在编程方面的表现尤为出色，尽管在其他几个逻辑推理和语言任务中存在一些错误。总体而言，其在三个问题上表现优秀，两个问题表现接近，考虑到其较小的体积，这样的表现已经相当可观。
**如何试用**
- 新版本的Phi-3.1 Mini已经在包括Hugging Face和Azure AI Studio等多个平台上进行了更新，用户可以在这些平台上免费试用该模型。
- 若希望在本地部署该模型，可从Llama或Hugging Face处下载并设置。
综上所述，微软的Phi-3.1 Mini以其体积小巧但性能强大的特点，在AI模型领域展现出了不俗的竞争力，尤其在编程任务上的出色表现更是令人印象深刻。对于希望尝试新模型或进行AI相关研究的人员来说，Phi-3.1 Mini无疑是一个值得关注的选项。