Llama-3刚出来不到一周,就有一些中文微调模型了。
我快速的对这些模型进行了基准测试,时间仓促,没有办法面面俱到,仅供参考。
中文评测数据集选择的是C-Eval(valid),英文选择的是MMLU(valid),评测指标是准确率, 越高越好。
中文能力评测结果
以下是中文能力评测结果,按5-shot结果降序排列。标注HF表示hugging face上可获取,标注MS表示modelscope上可获取。 想下载对应模型需要在模型名前拼接:
- HF: https://huggingface.co
- MS: http://modelscope.cn
模型 来源 基底 0-SHOT 5-SHOT shenzhi-wang/Llama3-8B-Chinese-Chat HF 8B-inst 47.77 51.86 linjh1118/Llama3-Chinese-pro-8.4B-sft-1M MS 8B-base 46.58 51.86 zhichen/Llama3-Chinese HF 8B-base 46.73 51.56 baicai003/Llama3-Chinese_v2 MS 8B-base 46.51 51.56 zhuangxialie/Llama3_Chinese_Sft MS ? 49.03 51.49 OpenBuddy/openbuddy-llama3-8b-v21.1-8k HF ? 47.99 51.41 Llama-3-8B HF - 45.69 50.81 baicai003/llama-3-8b-Instruct-chinese_v2 MS 8B-inst 47.85 50.74 Llama-3-8B-instruct HF - 48.06 50.29 Azure99/blossom-v5-llama3-8b HF 8B-base 45.32 50 FlagAlpha/Llama3-Chinese-8B-Instruct HF ? 43.31 47.33 UnicomLLM/Unichat-llama3-Chinese-8B HF 8B-base 40.27 47.25 zhuangxialie/Llama3-Chinese-DPO MS ? 36.7 40.42从上述结果可以看到,这些模型能力差别还是比较大的。有一大部分是低于原版英文Llama-3的效果的。
其中性能较好的是: shenzhi-wang/Llama3-8B-Chinese-Cha,这个是基于8B-inst版训练的,所以效果好也是预期之内,因为原版也是inst版效果更好一些 性能较差的是:zhuangxialie/Llama3-Chinese-DPO、UnicomLLM/Unichat-llama3-Chinese-8B、FlagAlpha/Llama3-Chinese-8B-Instructzhuangxialie/Llama3-Chinese-DPO感觉上是训坏了,能力下降太多,预计对话效果也不会太好。UnicomLLM这个从名字上看是某通讯厂商做的,可能是做的比较匆忙。FlagAlpha之前也有所耳闻,在Llama-2的时候就在github上,不过后来听说实际是引流卖课的,这我就不得而知了(我不买课,哈哈)。
英文能力评测结果
以下是英文能力结果,按5-shot结果降序排列。
MODEL 来源 基底 0-shot 5-shot baicai003/llama-3-8b-Instruct-chinese_v2 MS 8B-inst 62.6 64 Llama-3-8B-instruct HF - 62.2 63.7 linjh1118/Llama3-Chinese-pro-8.4B-sft-1M MS 8B-base 59.4 62.9 baicai003/Llama3-Chinese_v2 MS 8B-base 60.4 62.6 Llama-3-8B HF - 58.9 62.5 Azure99/blossom-v5-llama3-8b HF 8B-base 61.1 62.2 shenzhi-wang/Llama3-8B-Chinese-Chat HF 8B-inst 61.6 62.1 zhichen/Llama3-Chinese HF 8B-base 60.4 62 zhuangxialie/Llama3_Chinese_Sft MS ? 59.2 60.7 OpenBuddy/openbuddy-llama3-8b-v21.1-8k HF ? 57.2 60.6 UnicomLLM/Unichat-llama3-Chinese-8B HF 8B-base 56.2 60.3 FlagAlpha/Llama3-Chinese-8B-Instruct HF ? 54.2 58.3 zhuangxialie/Llama3-Chinese-DPO MS ? 47.4 51.4从上述结果可以看到,
其中性能较好的是: baicai003/llama-3-8b-instruct-chinese_v2,这个是基于8B-inst版训练的 性能较差的和中文的情况一样:zhuangxialie/Llama3-Chinese-DPO、UnicomLLM/Unichat-llama3-Chinese-8B、FlagAlpha/Llama3-Chinese-8B-Instruct英文能力这边似乎更糟糕,因为通过中文训练之后,大多数模型的英文能力都不如原版Llama-3(包括inst)的效果了,也是预期范围之内,毕竟我们主要关注的是中文能力。
结语
综上,中文社区动作还是非常快的,其中也不乏一些性能不错的模型。
基于8B-base版只做SFT的效果都比较一般,基于8B-inst效果会好一些。
当然,以上的评测也只是在两个代表性数据集上测了一下,具体的真实使用情况如何还需要进一步评测和探讨。同时也期待有更多Llama-3相关好用的模型放出。