当前位置:AIGC资讯 > AIGC > 正文

大模型笔记之-Llama-3.1-405B-Instruct-FP8离线部署[8*A800] 基于vLLM 版本v0.5.3.post1

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档

文章目录

前言 一、硬件环境 二、软件环境 三 . 模型下载 1.环境准备 新建 conda虚拟环境 安装vLLM 启动命令 启动日志截取 FP8 量化损失 对接到fastgpt![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/30f065ad34cc4415bca6ce81f26e7737.png)

前言

感谢:星鸾云提供8卡A800测试环境,本次部署教程均在星鸾云平台完成
邀请链接:https://xl.hzxingzai.cn/register?invitation_code=8707231444

Meta 的新一代开源大语言模型
vllm Blog:https://blog.vllm.ai/2024/07/23/llama31.html

一、硬件环境

GPU:A800 80GB PCIe * 8 卡
CPU:112 核
内存:880 G

二、软件环境

Python:Miniconda
CUDA Version:12.3

三 . 模型下载

使用魔搭下载脚本
#1.安装依赖
pip install modelscope 
#2.新建download.py 填入下面文件
from modelscope import snapshot_download
model_dir = snapshot_download('LLM-Research/Meta-Llama-3.1-405B-Instruct-FP8',cache_dir='/user/data/model')
#3.开始下载
python download.py

1.环境准备

新建 conda虚拟环境

conda create -n llama405 python=3.10

conda activate llama405 

安装vLLM

pip install -U vllm
#清华源加速 -i https://pypi.tuna.tsinghua.edu.cn/simple

### 启动脚本

## 环境检查

```bash
pip freeze | grep vllm
vllm==0.5.3.post1
vllm-flash-attn==2.5.9.post1

启动命令

python -m vllm.entrypoints.openai.api_server --host 0.0.0.0 --port 8000 --gpu-memory-utilization 0.99 --max-model-len=16384 --served-model-name Llama-3.1-405B-Instruct-FP8 --model /root/xinglin-data/Llama-3.1-405B-Instruct-FP8 --kv-cache-dtype fp8_e4m3 --trust-remote-code --tensor-parallel-size 8
python -m vllm.entrypoints.openai.api_server 
--host 0.0.0.0 
--port 8000 
--gpu-memory-utilization 0.99 
--max-model-len=16384 
--served-model-name Llama-3.1-405B-Instruct-FP8 
--model /root/xinglin-data/Llama-3.1-405B-Instruct-FP8 
--kv-cache-dtype fp8_e4m3 
--trust-remote-code 
--tensor-parallel-size 8

启动日志截取


FP8 量化损失

对接到fastgpt

总结

### 文章总结
本文是一份详细的部署教程,介绍了如何在提供的硬件和软件环境下,利用Meta开放的大语言模型vLLM(特别是其LLama 3.1-405B版本),进行下载、系统环境准备、模型启动以及日志查看等步骤。全程在星鸾云平台的8张A800 GPU环境中进行。以下是文章的主要内容总结:
#### 前言
- **感谢**:星鸾云提供测试环境及邀请链接。
- **介绍**:提到了Meta的新一代开源大语言模型vLLM及其博客链接。
#### 一、硬件环境
- **GPU**:A800 80GB PCIe * 8
- **CPU**:112核
- **内存**:880G
#### 二、软件环境
- **Python**:使用Miniconda进行环境管理
- **CUDA版本**:12.3
#### 三、模型下载
利用魔搭的下载脚本完成模型下载,主要步骤包括安装依赖、编写并运行下载脚本。
#### 环境准备
##### 新建conda虚拟环境
- 创建并激活名为`llama405`的新环境,指定Python版本为3.10。
##### 安装vLLM
- 通过pip安装vLLM及其依赖库,并提供清华源加速的安装选项。
- 检查已安装的vLLM相关包版本。
#### 启动命令
详细列出了启动vLLM服务所需的命令行参数,包括指定GPU使用、端口配置、最大模型长度、模型路径、键值缓存数据类型、信任远程代码以及张量并行大小。确保模型能够以最高效的方式在多GPU环境下运行。
#### 启动日志截取
提及了日志的获取方式,但未详细展示具体日志内容。
#### FP8 量化损失
提到了FP8量化的概念,但未详细解释其的原理、优点及对模型性能的影响。
#### 对接到fastgpt
提及了将vLLM模型对接到fastgpt框架的可能性,具体对接方法及效果如何未详细阐述。
整个教程旨在帮助用户从无到有地在特定环境中部署和启动Meta的LLama大模型,并详细介绍了每一步的操作和可能的配置选项。

更新时间 2024-08-09