什么是 Serge ?
Serge
是基于 llama.cpp
运行 Alpaca
模型的聊天界面。完全自托管,不需要 API
密钥。适合 4GB RAM
并且能在 CPU
上运行。
什么是 LLaMA ?
LLaMA
是一种机器学习算法,全称为 Laplacian Regularized Least Squares for Multiple Kernel Learning
。它是一种多核学习方法,可以用于处理多个核函数的数据集,以提高分类或回归的准确性。LLaMA
算法利用拉普拉斯正则化技术来平衡不同核函数的贡献,从而提高分类或回归的性能。LLaMA
算法已经在许多领域得到了广泛的应用,包括生物信息学、图像识别、自然语言处理等。
什么是 llama.cpp
llama.cpp
是在 C/C++
中移植的 Facebook
的 LLaMA
模型。
什么是 Alpaca 模型 ?
Alpaca
模型是一种基于深度学习的自然语言处理模型,它可以用于文本分类、情感分析、问答系统等任务。Alpaca
模型采用了一种特殊的网络结构,称为“路径卷积神经网络”( Path Convolutional Neural Network,PCNN
),该网络结构可以同时处理词序列和句法树,从而提高了模型的性能。此外,Alpaca
模型还使用了一种叫做“自适应注意力”( Adaptive Attention
)的机制,可以自动地调整不同单词的权重,从而更好地捕捉句子的意义。Alpaca
模型已经在多个自然语言处理任务上取得了优秀的表现,成为了该领域中的一个重要研究方向之一。
Serge
老苏试了下,4GB
内存有点够呛,尤其是你的群晖还跑了其他的服务,如果有 8GB
可以试试,不需要 GPU
还是不错的,虽然运算速度慢点
注意事项
CPU
目前 Serge
需要与 AVX2
指令兼容的 CPU
,老苏猜测应该是因为 MongoDB
的缘故。官方给的检测命令是:
# 检测 cpu 是否支持 AVX2
lscpu | grep avx2
但是在群晖上,并没有 lscpu
,所以老苏咨询了 ChatGPT
,他给老苏提供了下面的命令, 请用SSH
客户端登录到群晖后,在命令行中运行
# 检测 cpu 是否支持 AVX2
cat /proc/cpuinfo | grep avx2
如果输出包含 avx2
,则表示您的 CPU
支持 AVX2
。如果未找到 avx2
,则表示您的 CPU
不支持 AVX2
。
内存
如果您的模型没有足够的可用内存,llama
就会崩溃,下面是官方提供的数据:
7B
需要大约 4.5GB
的空闲 RAM
13B
需要大约 12GB
的空闲RAM
30B
需要大约 20GB
的空闲RAM
安装
ghcr.io 镜像下载
官方的镜像没有发布在 docker hub
,而是在 ghcr.io
,所以直接用命令行来安装。
在 SSH
客户端中依次执行下面的命令
# 下载镜像
docker pull ghcr.io/nsarrazin/serge:latest
如果没有科学上网,很可能会拉不动,可以试试 docker
代理网站:https://dockerproxy.com/,但是会多几个步骤
# 如果拉不动的话加个代理
docker pull ghcr.dockerproxy.com/nsarrazin/serge:latest
# 重命名镜像(如果是通过代理下载的)
docker tag ghcr.dockerproxy.com/nsarrazin/serge:latest ghcr.io/nsarrazin/serge:latest
# 删除代理镜像(如果是通过代理下载的)
docker rmi ghcr.dockerproxy.com/nsarrazin/serge:latest
当然代理网站也不是什么时候都好使,有时候也会报错,例如下面?这样的
Error response from daemon: received unexpected HTTP status: 500 Internal Server Error
所以有一个稳定的科学上网环境还是很重要的
docker cli 安装
现在可以开始运行了
# 新建文件夹 serge 和 子目录
mkdir -p /volume2/docker/serge/{data,weights}
# 进入 serge 目录
cd /volume2/docker/serge
# 运行容器
docker run -d \
--restart unless-stopped \
--name serge \
-p 8018:8008 \
-v $(pwd)/data:/data/db \
-v $(pwd)/weights:/usr/src/app/weights \
ghcr.io/nsarrazin/serge:latest
docker compose 安装
也可以用 docker-compose
安装,将下面的内容保存为 docker-compose.yml
文件
version: '3'
services:
serge:
image: ghcr.io/nsarrazin/serge:latest
container_name: serge
restart: unless-stopped
ports:
- 8018:8008
volumes:
- ./data:/data/db
- ./weights:/usr/src/app/weights
- /etc/localtime:/etc/localtime:ro
然后执行下面的命令
# 新建文件夹 serge 和 子目录
mkdir -p /volume2/docker/serge/{data,weights}
# 进入 serge 目录
cd /volume2/docker/serge
# 将 docker-compose.yml 放入当前目录
# 一键启动
docker-compose up -d
运行
在浏览器中输入 http://群晖IP:8018
就能看到主界面
首先要点 Download model
下载模型
老苏下了 gpt4all
,文件大小和 7B
、7B-native
是一样的,估摸着内存占用应该是一样的,但具体有什么区别老苏不清楚 ?♂️
下载速度挺快的,日志中看不到具体的下载地址
点左侧的 Home
回到首页
聊天之前,可以设置模型的参数,但是说实话,老苏也不明白这些该如何设置,所以就保持了默认的
点紫色的 Start a new chat
开始聊天
老苏问了第一个问题 你支持中文吗?
感觉一下就把天给聊死了,这接下来怎么聊呢?老苏的英文水平也就能说个 What's you name?
、How are you?
、How old are you?
老苏的机器是 4G
内存的, CPU
也比较古老,所以每个问题都需要很长时间才会有应答,差不多每个问题也就一顿饭的功夫吧 ?
昨晚装好之后,第一个问题是中文的,其实难道也不大,但还是直接把机器给整的没响应了,早上起来一看重启了,估计是资源耗尽了吧,有兴趣的话,你也可以试试
参考文档
nsarrazin/serge: A web interface for chatting with Alpaca through llama.cpp. Fully dockerized, with an easy to use API.
地址:https://github.com/nsarrazin/serge
https://serge.chat
地址:https://serge.chat/
[P] Serge, a self-hosted app for running LLaMa models (Alpaca) entirely locally, no remote API needed. : MachineLearning
地址:https://www.reddit.com/r/MachineLearning/comments/11yvbzc/p_serge_a_selfhosted_app_for_running_llama_models/