当前位置:AIGC资讯 > AIGC > 正文

llama.cpp 部署 llama-2-7b 测试 Llama 2

首先进入这里
https://github.com/facebookresearch/llama

 点击下载

填写注册信息

 接受后继续

 上面的按钮点击后,应该邮箱就收到链接了,几乎是很快的

把下面的链接复制后备用,注意24小时后会失效

提前先了解一下有3种模型

7b  13b  70b  

7b就是有70亿参数,文件夹里面有3个文件

其中最大的是模型文件有13G

外面还有分词器清单和分词器模型文件

 如果下载全部的话体积特别大,注意啦354GB

 所以我只下载了7B,它占用磁盘13GB的空间

 我们再把开头的仓库地址复制后克隆

在ubuntu 20.04环境下面克隆llama仓库

git clone https://github.com/facebookresearch/llama.git

 安装python依赖

pip install -e .

 执行download.sh

注意要把刚刚复制的url贴上去

第二步,看看下面帅气的男人,我们要再下载一个仓库啦

 就是llama.cpp

执行命令  git clone https://github.com/ggerganov/llama.cpp.git

在里面make -j

 安装python依赖

先在models文件夹里面创建7B的文件夹

 再拷贝模型文件,参考下面的命令   

 使用python3 convert.py models/7B/

将7B模型转换为ggml FP32格式

转换成功后变成了f32.bin文件  (ggml FP16格式)

它的大小是27GB

 将模型量化为 4 位(使用 q4_0 方法)

./quantize ./models/7B/ggml-model-f32.bin ./models/7B/ggml-model-q4_0.bin q4_0

 量化为 4 位之后模型就变小成4G了

 最后就可以推理了

./examples/chat.sh

更新时间 2023-12-14