快速评测已有的中文llama-3开源模型（4月25日更新）

Llama-3刚出来不到一周，就有一些中文微调模型了。

我快速的对这些模型进行了基准测试，时间仓促，没有办法面面俱到，仅供参考。

中文评测数据集选择的是C-Eval（valid），英文选择的是MMLU（valid），评测指标是准确率，越高越好。

中文能力评测结果

以下是中文能力评测结果，按5-shot结果降序排列。标注HF表示hugging face上可获取，标注MS表示modelscope上可获取。想下载对应模型需要在模型名前拼接：

- HF: https://huggingface.co

- MS： http://modelscope.cn

模型来源基底 0-SHOT 5-SHOT shenzhi-wang/Llama3-8B-Chinese-Chat HF 8B-inst 47.77 51.86 linjh1118/Llama3-Chinese-pro-8.4B-sft-1M MS 8B-base 46.58 51.86 zhichen/Llama3-Chinese HF 8B-base 46.73 51.56 baicai003/Llama3-Chinese_v2 MS 8B-base 46.51 51.56 zhuangxialie/Llama3_Chinese_Sft MS ? 49.03 51.49 OpenBuddy/openbuddy-llama3-8b-v21.1-8k HF ? 47.99 51.41 Llama-3-8B HF - 45.69 50.81 baicai003/llama-3-8b-Instruct-chinese_v2 MS 8B-inst 47.85 50.74 Llama-3-8B-instruct HF - 48.06 50.29 Azure99/blossom-v5-llama3-8b HF 8B-base 45.32 50 FlagAlpha/Llama3-Chinese-8B-Instruct HF ? 43.31 47.33 UnicomLLM/Unichat-llama3-Chinese-8B HF 8B-base 40.27 47.25 zhuangxialie/Llama3-Chinese-DPO MS ? 36.7 40.42

从上述结果可以看到，这些模型能力差别还是比较大的。有一大部分是低于原版英文Llama-3的效果的。

其中性能较好的是： shenzhi-wang/Llama3-8B-Chinese-Cha，这个是基于8B-inst版训练的，所以效果好也是预期之内，因为原版也是inst版效果更好一些性能较差的是：zhuangxialie/Llama3-Chinese-DPO、UnicomLLM/Unichat-llama3-Chinese-8B、FlagAlpha/Llama3-Chinese-8B-Instruct

zhuangxialie/Llama3-Chinese-DPO感觉上是训坏了，能力下降太多，预计对话效果也不会太好。UnicomLLM这个从名字上看是某通讯厂商做的，可能是做的比较匆忙。FlagAlpha之前也有所耳闻，在Llama-2的时候就在github上，不过后来听说实际是引流卖课的，这我就不得而知了（我不买课，哈哈）。

英文能力评测结果

以下是英文能力结果，按5-shot结果降序排列。

MODEL 来源基底 0-shot 5-shot baicai003/llama-3-8b-Instruct-chinese_v2 MS 8B-inst 62.6 64 Llama-3-8B-instruct HF - 62.2 63.7 linjh1118/Llama3-Chinese-pro-8.4B-sft-1M MS 8B-base 59.4 62.9 baicai003/Llama3-Chinese_v2 MS 8B-base 60.4 62.6 Llama-3-8B HF - 58.9 62.5 Azure99/blossom-v5-llama3-8b HF 8B-base 61.1 62.2 shenzhi-wang/Llama3-8B-Chinese-Chat HF 8B-inst 61.6 62.1 zhichen/Llama3-Chinese HF 8B-base 60.4 62 zhuangxialie/Llama3_Chinese_Sft MS ? 59.2 60.7 OpenBuddy/openbuddy-llama3-8b-v21.1-8k HF ? 57.2 60.6 UnicomLLM/Unichat-llama3-Chinese-8B HF 8B-base 56.2 60.3 FlagAlpha/Llama3-Chinese-8B-Instruct HF ? 54.2 58.3 zhuangxialie/Llama3-Chinese-DPO MS ? 47.4 51.4

从上述结果可以看到，

其中性能较好的是： baicai003/llama-3-8b-instruct-chinese_v2，这个是基于8B-inst版训练的性能较差的和中文的情况一样：zhuangxialie/Llama3-Chinese-DPO、UnicomLLM/Unichat-llama3-Chinese-8B、FlagAlpha/Llama3-Chinese-8B-Instruct

英文能力这边似乎更糟糕，因为通过中文训练之后，大多数模型的英文能力都不如原版Llama-3（包括inst）的效果了，也是预期范围之内，毕竟我们主要关注的是中文能力。

结语

综上，中文社区动作还是非常快的，其中也不乏一些性能不错的模型。

基于8B-base版只做SFT的效果都比较一般，基于8B-inst效果会好一些。

当然，以上的评测也只是在两个代表性数据集上测了一下，具体的真实使用情况如何还需要进一步评测和探讨。同时也期待有更多Llama-3相关好用的模型放出。