首先进入这里
https://github.com/facebookresearch/llama
点击下载
填写注册信息
接受后继续
上面的按钮点击后,应该邮箱就收到链接了,几乎是很快的
把下面的链接复制后备用,注意24小时后会失效
提前先了解一下有3种模型
7b 13b 70b
7b就是有70亿参数,文件夹里面有3个文件
其中最大的是模型文件有13G
外面还有分词器清单和分词器模型文件
如果下载全部的话体积特别大,注意啦354GB
所以我只下载了7B,它占用磁盘13GB的空间
我们再把开头的仓库地址复制后克隆
在ubuntu 20.04环境下面克隆llama仓库
git clone https://github.com/facebookresearch/llama.git
安装python依赖
pip install -e .
执行download.sh
注意要把刚刚复制的url贴上去
第二步,看看下面帅气的男人,我们要再下载一个仓库啦
就是llama.cpp
执行命令 git clone https://github.com/ggerganov/llama.cpp.git
在里面make -j
安装python依赖
先在models文件夹里面创建7B的文件夹
再拷贝模型文件,参考下面的命令
使用python3 convert.py models/7B/
将7B模型转换为ggml FP32格式
转换成功后变成了f32.bin文件 (ggml FP16格式)
它的大小是27GB
将模型量化为 4 位(使用 q4_0 方法)
./quantize ./models/7B/ggml-model-f32.bin ./models/7B/ggml-model-q4_0.bin q4_0
量化为 4 位之后模型就变小成4G了
最后就可以推理了
./examples/chat.sh