环境配置
torch>=1.13.0已经不在支持CUDA11.3以下的版本了,CUDA版本必须升级,可以查看
nvidia-smi
在conda虚拟环境中安装的cuda版本必须<=CUDA Version
多GPU跑
config,位置/.cache/huggingface/accelerate
compute_environment: LOCAL_MACHINE
distributed_type: MULTI_GPU
downcast_bf16: 'no'
gpu_ids: 0,1,2,3,4,5,6,7
machine_rank: 0
main_training_function: main
mixed_precision: fp16
num_machines: 1
num_processes: 6
rdzv_backend: static
same_network: true
tpu_env: []
tpu_use_cluster: false
tpu_use_sudo: false
use_cpu: false
.sh文件
CUDA_VISIBLE_DEVICES=2,3,4,5,6,7 accelerate launch src/train_bash.py \
--stage sft \
--model_name_or_path /mnt/ganyang/bloomz-560m \
--do_train \
--dataset alpaca_gpt4_zh \
--template default \
--finetuning_type lora \
--lora_target query_key_value \
--output_dir /mnt/ganyang/outputs/bloomz_560m_gpus \
--overwrite_cache \
--per_device_train_batch_size 2 \
--gradient_accumulation_steps 4 \
--lr_scheduler_type cosine \
--logging_steps 10 \
--save_steps 1000 \
--learning_rate 5e-5 \
--num_train_epochs 3.0 \
--plot_loss \
--fp16