一、安装cmake
https://cmake.org/
因为我使用是win10系统cmake版本是3.26.4,请根据自己系统选择版本。
二、下载源码
git clone https://github.com/ggerganov/llama.cpp.git
#进入llama.cpp文件夹
cd llama.cpp
mkdir build
cd build
#编译llama.cpp
cmake .. -G "Visual Studio 16 2019" -DLLAMA_CUBLAS=on -DLLAMA_CUDA_F16=1 -DCMAKE_CUDA_ARCHITECTURES=75 -DCMAKE_GENERATOR_TOOLSET="cuda=C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.1"
注意:DCMAKE_CUDA_ARCHITECTURES=75,75是显卡算力如果报错请根据自己显卡算力修改这个数值。
三、编译成功样子
在llama.cpp\build\bin\Release
四、gguf模型转换
#下载llava-v1.5-7b模型放在llama.cpp文件夹下
#下载openaiclip-vit-large-patch14-336模型放在llama.cpp文件夹下
cd llama.cpp
#模型拆分
python examples/llava/llava-surgery.py -m llava-v1.5-7b
#转换为 GGUF
python examples/llava/convert-image-encoder-to-gguf.py -m openaiclip-vit-large-patch14-336 --llava-projector llava-v1.5-7b/llava.projector --output-dir llava-v1.5-7b
#转换为 GGUF:convert.py
python convert.py llava-v1.5-7b --skip-unknown
注意:完成上述步骤后在llava-v1.5-7b文件夹会多出两个文件ggml-model-f16.gguf和mmproj-model-f16.gguf把这两个文件复制到llama.cpp/models就可以运行服务器了。
五、模型转换成功的样子
六、运行刚才转换的模型
#打开命令行进入llama.cpp文件夹
cd llama.cpp
#在命令行输入下面命令运行模型服务器
build/bin/Release/server -m models/ggml-model-f16.gguf --mmproj models/mmproj-model-f16.gguf --port 8080 -ngl 35 -t 20
七、模型服务器运行样子
八、前端运行样子
九、模型转换到应用探索结束
如遇编译错误
已经编译好的版本见知识星球-xingxingyu