llama.cpp部署多模态视觉模型到应用实践

一、安装cmake

https://cmake.org/

因为我使用是win10系统cmake版本是3.26.4，请根据自己系统选择版本。

二、下载源码

git clone https://github.com/ggerganov/llama.cpp.git



#进入llama.cpp文件夹

cd llama.cpp

mkdir build

cd build



#编译llama.cpp

cmake .. -G "Visual Studio 16 2019" -DLLAMA_CUBLAS=on -DLLAMA_CUDA_F16=1 -DCMAKE_CUDA_ARCHITECTURES=75 -DCMAKE_GENERATOR_TOOLSET="cuda=C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.1"

注意：DCMAKE_CUDA_ARCHITECTURES=75，75是显卡算力如果报错请根据自己显卡算力修改这个数值。

三、编译成功样子

在llama.cpp\build\bin\Release

四、gguf模型转换

#下载llava-v1.5-7b模型放在llama.cpp文件夹下

#下载openaiclip-vit-large-patch14-336模型放在llama.cpp文件夹下

cd llama.cpp



#模型拆分

python examples/llava/llava-surgery.py -m llava-v1.5-7b



#转换为 GGUF

python examples/llava/convert-image-encoder-to-gguf.py -m openaiclip-vit-large-patch14-336 --llava-projector llava-v1.5-7b/llava.projector --output-dir llava-v1.5-7b



#转换为 GGUF：convert.py

python convert.py llava-v1.5-7b --skip-unknown

注意：完成上述步骤后在llava-v1.5-7b文件夹会多出两个文件ggml-model-f16.gguf和mmproj-model-f16.gguf把这两个文件复制到llama.cpp/models就可以运行服务器了。

五、模型转换成功的样子

六、运行刚才转换的模型

#打开命令行进入llama.cpp文件夹



cd llama.cpp



#在命令行输入下面命令运行模型服务器

build/bin/Release/server -m models/ggml-model-f16.gguf --mmproj models/mmproj-model-f16.gguf --port 8080 -ngl 35 -t 20

七、模型服务器运行样子

八、前端运行样子

九、模型转换到应用探索结束

如遇编译错误

已经编译好的版本见知识星球-xingxingyu