微软 Phi-3.1 Mini (3.8B):刚刚进行了疯狂升级(击败 Llama-3 和 Qwen2)
原创 Aitrainee AI进修生 2024年07月06日 15:16 湖南
Aitrainee | 公众号:AI进修生
?这是一个新模型,据称可以击败 Llama-3、Qwen2、Deepseek 和其他开源 LLM 等模型,同时体积更小。我将在这篇文章中对其进行测试。
前些日子,微软发布了他们的Phi系列模型。首先,他们推出了Phi-3 Mini模型,这是一个4B参数的模型,接着发布了7B和14B的小型和中型模型,然后又发布了Mini Vision模型。这些模型表现都相当出色,完全符合微软的预期。
然而,我觉得最令人印象深刻的是这个4B参数的Mini模型。尽管体积小巧,但知识储备丰富,因此我最近常用它。微软最近又对这个Mini模型进行了升级,使其性能更上一层楼。他们仍称其为Phi-3 Mini模型,但许多人称其为Phi-3.1,这个名称更加准确。
这次更新仅针对Phi-3 Mini模型,性能提升了接近15%。他们说这个更新是基于客户反馈,并包含了更多的后期训练数据,显著提高了指令遵循和结构化输出的表现,还增强了多轮对话质量、系统标签支持以及推理能力,总体上是全面的改进。
让我们看看他们分享的最新基准测试数据。在指令硬和额外硬类别中,提升不大,但在指令挑战基准测试中,分数从24.6提高到了42.3,几乎提升了一倍。在Json结构化输出方面,从11.5提升到了52.3,提升了约五倍。在XML结构化输出方面,也有显著提升,从14.4提高到了49.8,大约是四倍的提升。
此外,在GP QA和MML方面也有不错的提升,这些改进都很酷。他们还在几乎所有平台上更新了这个新模型,包括Hugging Face和Azure AI Studio,所以你可以在Azure AI Studio上免费试用,或者如果你想本地使用,可以从Llama或Hugging Face上获取这个模型。
现在,让我们来测试一下这个模型的表现。像往常一样,我会用一些问题来评估它,这些问题涵盖从简单语言任务到编程。
第一个问题是找出与高植物名称押韵的数字,答案应该是“三”或“九”。让我们发送问题并查看答案。好,它没有回答正确,因此这个问题算失败。
第二个问题是:我有两个苹果,然后买了两个,做了一个苹果派,用了两个苹果,吃掉一半苹果派后还剩多少苹果?答案应该是两个。让我们发送问题并查看答案。好,它虽然推理正确,但最后给出了错误答案,这也是失败。
第三个问题是:Sally有三个兄弟,每个兄弟有两个姐妹,Sally有几个姐妹?答案应该是一个。它再次推理正确,但给出了错误答案,因此再次失败。
第四个问题是:如果一个正六边形的短对角线是64,那么长对角线是多少?答案应该是73.9。它再次回答错误,因此也失败了。
接下来是编程问题:创建一个点击按钮会爆炸彩纸的HTML页面,可以使用CSS和JS。我们发送问题并查看答案。
好,它生成的代码运行良好,这是一个通过。
接下来的问题是:编写一个只输出函数的Python程序,该函数打印接下来的20个闰年。我们发送问题并查看答案。好,它生成的代码正常运行,这也通过了。
下一个问题是生成一个蝴蝶的SVG代码。它生成了代码,但只有一个方块,因此这是失败。
下一个问题是:编写一个现代且简洁的AI公司着陆页面HTML代码,包含动画效果。生成的代码虽然很基础,但比Gemma生成的1970年代风格页面要好,因此算通过。
最后一个问题是编写一个在终端上运行的Python版生命游戏。我认为这可能行不通,但还是试试吧。它生成了程序,但要求一些输入却无法运行,因此这也不通过。最终结果是它在三个问题上通过,两个问题非常接近。
总的来说,考虑到它的体积,这个模型表现相当不错,尤其在编程方面表现出色,这也是我喜欢它的原因。它真的很酷。
希望这篇文章对你有帮助,感谢阅读!
视频教程
https://www.youtube.com/watch?v=HribLmgpS5k
参考链接:
[1]https://ollama.com/library/phi3:3.8b
[2]https://huggingface.co/lmstudio-community/Phi-3.1-mini-4k-instruct-GGUF
总结
**微软Phi-3.1 Mini模型升级解析**微软近期对其Phi系列模型中的Phi-3 Mini进行了显著升级,并命名为Phi-3.1 Mini(3.8B),据称这一新版本在性能上有了近15%的提升,成功击败了包括Llama-3、Qwen2在内的多个开源LLM模型。尽管体积小巧,但Phi-3.1 Mini展现出了强大的知识储备和出色的性能。
**性能提升亮点**
- **指令遵循与结构化输出**:新版本的模型在指令遵循和结构化输出方面取得了显著进步,特别在Json和XML结构化输出方面,分数提升分别高达约五倍和四倍。
- **多轮对话与推理能力**:除了基础能力,新模型还在多轮对话质量、系统标签支持以及推理能力方面有了加强。
**实际应用测试**
通过对Phi-3.1 Mini进行一系列问题的测试,包括语言理解、数学推理和编程任务,结果显示该模型在编程方面的表现尤为出色,尽管在其他几个逻辑推理和语言任务中存在一些错误。总体而言,其在三个问题上表现优秀,两个问题表现接近,考虑到其较小的体积,这样的表现已经相当可观。
**如何试用**
- 新版本的Phi-3.1 Mini已经在包括Hugging Face和Azure AI Studio等多个平台上进行了更新,用户可以在这些平台上免费试用该模型。
- 若希望在本地部署该模型,可从Llama或Hugging Face处下载并设置。
综上所述,微软的Phi-3.1 Mini以其体积小巧但性能强大的特点,在AI模型领域展现出了不俗的竞争力,尤其在编程任务上的出色表现更是令人印象深刻。对于希望尝试新模型或进行AI相关研究的人员来说,Phi-3.1 Mini无疑是一个值得关注的选项。