欺诈文本分类检测（十一）：LLamaFactory多卡微调

1. 引言

前文训练时都做了一定的编码工作，其实有一些框架可以支持我们零代码微调，LLama-Factory就是其中一个。这是一个专门针对大语言模型的微调和训练平台，有如下特性：

支持常见的模型种类：LLaMA、Mixtral-MoE、Qwen、Baichuan、ChatGLM等等。支持单GPU和多GPU训练。支持全参微调、Lora微调、QLora微调。
……

还有很多优秀的特性，详细参考：https://llamafactory.readthedocs.io/zh-cn/latest/

本文会尝试用LLamaFactory进行一次多GPU训练。

2. 安装

git clone --depth 1 https://github.com/hiyouga/LLaMA-Factory.git
cd LLaMA-Factory
pip install -e ".[torch,metrics,deepspeed,bitsandbytes,vllm]"

安装完后执行llamafactory-cli version验证安装是否成功，结果报了AttributeError: module 'torch.library' has no attribute 'register_fake'。

原因：PyTorch 和 TorchVision 版本不兼容，经常发生在torchvision较新而pytorch版本较旧的场景。

解法：使用pip install --upgrade torch torchvision 更新两者版本使之一致，再次运行llamafactory-cli version后正常输出了版本号0.8.4。

----------------------------------------------------------
| Welcome to LLaMA Factory, version 0.8.4.dev0           |
|                                                        |
| Project page: https://github.com/hiyouga/LLaMA-Factory |
----------------------------------------------------------

3. 数据处理

针对sft， llamafactory支持多种数据格式，我们这里选用alpaca，此格式简单清晰，每条数据只需包含三个字段：

instruction 列对应的内容为人类指令； input 列对应的内容为人类输入； output 列对应的内容为模型回答。

{
  "instruction": "计算这些物品的总费用。 ",
  "input": "输入：汽车 - $3000，衣服 - $100，书 - $20。",
  "output": "汽车、衣服和书的总费用为 $3000 + $100 + $20 = $3120。"
},

为了格式匹配，封装一个函数to_alpaca用于转换数据。

import json  

def to_alpaca(input_path, output_path):
    with open(input_path, 'r', encoding='utf-8') as infile, open(output_path, 'w', encoding='utf-8') as outfile:  
        dataset = []
        for line in infile:  
            data = json.loads(line)  
            item = {
                'input': data['input'],
                'output': json.dumps({'is_fraud':data['label']}, ensure_ascii=False),
                'instruction':data['instruction'],
            }  
            dataset.append(item)
        # 将结果写入输出文件  
        outfile.write(json.dumps(dataset, indent=4, ensure_ascii=False))  
        print(f"convert over，{input_path} to {output_path}")

批量将前文欺诈文本分类微调（四）：构造训练/测试数据集已经构建好的数据集作格式转换。

input_files = [
    '../dataset/fraud/train_test/train0819.jsonl',
    '../dataset/fraud/train_test/test0819.jsonl',
    '../dataset/fraud/train_test/eval0819.jsonl',
]

for input_path in input_files:
    output_path = f'../dataset/fraud/train_test/{filename(input_path)}_alpaca.json'
    to_alpaca(input_path, output_path)

convert over，../dataset/fraud/train_test/train0819.jsonl to ../dataset/fraud/train_test/train0819_alpaca.json
convert over，../dataset/fraud/train_test/test0819.jsonl to ../dataset/fraud/train_test/test0819_alpaca.json
convert over，../dataset/fraud/train_test/eval0819.jsonl to ../dataset/fraud/train_test/eval0819_alpaca.json

文件内容如下所示：

[
    {
        "input": "发言人3: 现在我所在这个哪里能够工艺能够去把屈光做得很好的，去到这个省级医院是自治区医院跟广西医科大学这个附属医院他们还可以，他们一直保持比较好的一个一个手术量。\n发言人1: 就是",
        "output": "{\"is_fraud\": false}",
        "instruction": "\n下面是一段对话文本, 请分析对话内容是否有诈骗风险，以json格式输出你的判断结果(is_fraud: true/false)。\n"
    },
    ……
    {
        "input": "发言人12: 好的，感谢大家参加本次电话会议会议到此结束，祝大家生活愉快，再见。\n发言人1: 本次会议已结束。\n发言人2: the meeting has ended。",
        "output": "{\"is_fraud\": false}",
        "instruction": "\n下面是一段对话文本, 请分析对话内容是否有诈骗风险，以json格式输出你的判断结果(is_fraud: true/false)。\n"
    }
]

转换好数据集后，需要将其配置到LLamaFactory安装目录下的data/dataset_info.json文件中，只需要在文件最后添加我们新构造的数据集。

{
  "identity": {
    "file_name": "identity.json"
  },
  ……
  "anti_fraud": {
    "file_name": "train0819_alpaca.jsonl",
    "columns": {
      "prompt": "instruction",
      "query": "input",
      "response": "output"
    }
  }
}

4. 训练参数配置

LLamaFactory的训练参数采用yaml文件保存，在安装目录下的examples子目录下有各种微调方法的示例配置，可以直接拷贝一份进行修改。

yaml文件中采用分块配置，下面分别示例。

模型路径

### model
model_name_or_path: /data2/anti_fraud/models/modelscope/hub/Qwen/Qwen2-1___5B-Instruct

微调方法

说明：同前面训练的参数配置保持一致。

stage: sft          
do_train: true
finetuning_type: lora  # 具体微调方法采用Lora
lora_target: q_proj,k_proj,v_proj,o_proj,gate_proj,up_proj,down_proj
lora_rank: 16
lora_alpha: 32
lora_dropout: 0.2

stage: sft ：LLamaFactory中将训练划分成了很多阶段，例如：rm(reward modeling), pt(pretrain), sft(Supervised Fine-Tuning), PPO, DPO, KTO, ORPO，监督微调选择sft。 finetuning_type: lora 微调方法选择Lora。

数据集配置

这部分参数定义上有些不同，下面会详细说明。

dataset: anti_fraud
template: qwen
cutoff_len: 2048
max_samples: 200000
overwrite_cache: true
preprocessing_num_workers: 16

dataset: anti_fraud 是用于上面在dataset_info.json中添加的数据集名称。

template: llama3 此参数控制着最终给模型训练的数据模板。

如果是llama3:

<|start_header_id|>user<|end_header_id|>


下面是一段对话文本, 请分析对话内容是否有诈骗风险，以json格式输出你的判断结果(is_fraud: true/false)。

发言人3: 现在我所在这个哪里能够工艺能够去把屈光做得很好的，去到这个省级医院是自治区医院跟广西医科大学这个附属医院他们还可以，他们一直保持比较好的一个一个手术量。
发言人1: 就是<|eot_id|><|start_header_id|>assistant<|end_header_id|>

{"is_fraud": false}<|eot_id|>

如果是qwen:

<|im_start|>system
You are a helpful assistant.<|im_end|>
<|im_start|>user

下面是一段对话文本, 请分析对话内容是否有诈骗风险，以json格式输出你的判断结果(is_fraud: true/false)。

发言人3: 现在我所在这个哪里能够工艺能够去把屈光做得很好的，去到这个省级医院是自治区医院跟广西医科大学这个附属医院他们还可以，他们一直保持比较好的一个一个手术量。
发言人1: 就是<|im_end|>
<|im_start|>assistant
{"is_fraud": false}<|im_end|>

cutoff_len: 相当于max_length，限制一条数据的最大长度，超出截断。

max_samples: 用于限制在训练或评估过程中使用的样本数量。此参数主要适用于数据集非常大并且不需要所有样本都进行训练的场景。

输出配置

说明：同前面训练的参数配置保持一致。

### output
output_dir: /data2/anti_fraud/models/Qwen2-1___5B-Instruct_ft_0826
logging_steps: 10
save_steps: 100
plot_loss: true
overwrite_output_dir: true

训练配置

说明：同前面训练的参数配置保持一致。

per_device_train_batch_size: 16
gradient_accumulation_steps: 1
gradient_checkpointing: true
learning_rate: 1.0e-4
num_train_epochs: 3.0
lr_scheduler_type: cosine
warmup_ratio: 0.05
bf16: true
ddp_timeout: 180000000

验证配置

说明：同前面训练的参数配置保持一致。

val_size: 0.1
per_device_eval_batch_size: 8
eval_strategy: steps
eval_steps: 100

配置完成后，将上面的配置保存到qwen2_lora_sft.yaml 文件中。

5. 训练

5.1 开始训练

设置环境变量CUDA_VISIBLE_DEVICES声明训练过程中允许使用4张显卡，显卡编号分别为1、2、3、4。

使用 llamafactory-cli命令启动训练。

export CUDA_VISIBLE_DEVICES=1,2,3,4
llamafactory-cli train /data2/downloads/LLaMA-Factory/qwen2_lora_sft.yaml

训练关键信息：

08/26/2024 18:08:49 - INFO - llamafactory.model.loader - trainable params: 18,464,768 || all params: 1,562,179,072 || trainable%: 1.1820
[INFO|trainer.py:2134] 2024-08-26 18:08:50,496 >> ***** Running training *****
[INFO|trainer.py:2135] 2024-08-26 18:08:50,496 >>   Num examples = 19,021
[INFO|trainer.py:2136] 2024-08-26 18:08:50,496 >>   Num Epochs = 3
[INFO|trainer.py:2137] 2024-08-26 18:08:50,496 >>   Instantaneous batch size per device = 16
[INFO|trainer.py:2140] 2024-08-26 18:08:50,496 >>   Total train batch size (w. parallel, distributed & accumulation) = 64
[INFO|trainer.py:2141] 2024-08-26 18:08:50,496 >>   Gradient Accumulation steps = 1
[INFO|trainer.py:2142] 2024-08-26 18:08:50,496 >>   Total optimization steps = 894
[INFO|trainer.py:2143] 2024-08-26 18:08:50,502 >>   Number of trainable parameters = 18,464,768

从上面这个信息可以看出一个显著变化，实际的批量大小batch_size从单卡下的16变成了多GPU下的64。在数据量不变的情况下，总的训练步数从之前的3522缩小到了894，相当于训练步数变少，而每一步迈的更大。

第一个100步的信息：

训练完的eval_loss为0.0152，比单卡时的验证损失0.016190要低。

***** eval metrics *****
  epoch                   =        3.0
  eval_loss               =     0.0152
  eval_runtime            = 0:00:17.00
  eval_samples_per_second =    124.291
  eval_steps_per_second   =      3.939

5.2 可视化训练结果

使用tensorboard可视化训练过程中的数据指标。

tensorboard --host=0.0.0.0 --port 6006 --logdir=/data2/anti_fraud/models/Qwen2-1___5B-Instruct_ft_0826/runs/Aug26_18-07-16_ubuntu/

训练损失下降曲线：

验证损失下降曲线：

学习率变化曲线：

学习率先降后升是学习率调度器配置lr_scheduler_type: cosine所起的作用，它将我们预设的1e-4作为最大值，刚开始训练时从2e-5左右缓慢上升至1e-4来适应数据，随着训练到了后期，逐渐降低学习率来尝试找到损失最低点。

5.3 评估测试

使用魔法命令%run导入评估脚本，定义原始模型/微调checkpoint的路径以及评估数据集。

%run evaluate.py
device = 'cuda'
evaldata_path = '/data2/anti_fraud/dataset/eval0819.jsonl'
model_path = '/data2/anti_fraud/models/modelscope/hub/Qwen/Qwen2-1___5B-Instruct'
checkpoint_path_900 = '/data2/anti_fraud/models/Qwen2-1___5B-Instruct_ft_0826/checkpoint-900'

运行评测：

evaluate(model_path, checkpoint_path_900, evaldata_path, device, batch=True, debug=True)

progress: 100%|██████████| 2348/2348 [03:22<00:00, 11.59it/s]
tn：1160, fp:5, fn:103, tp:1080
precision: 0.9953917050691244, recall: 0.9129332206255283

精确率precision从0.978上升到了0.995，召回率从0.866上升到了0.912，说明多张卡一起训练带来的批量大小增加，有助于模型更好的学习数据分布，从而更快的收敛到更优的解。

小结：本文尝试用LLamaFactory工具对前面的欺诈文本分类任务进行了SFT微调训练，并启用了多张GPU，多GPU的直接影响是批量大小batch_size的4倍增加，使得模型每次训练时能看到更多的数据，进行更稳定梯度估计和更准确的参数更新，最终在评测指标上有一个显著的提升。

参考文章

欺诈文本分类微调（七）：lora单卡二次调优 LLamaFactory使用教程 llama-factory参数体系 llama-factory微调参数详解

总结

### 文章总结
本文介绍了如何使用LLamaFactory平台进行大语言模型的微调和多GPU训练。LLamaFactory是一个支持零代码微调的大语言模型训练和微调平台，兼容多种模型类型(如LLaMA, Mixtral-MoE, Qwen, Baichuan, ChatGLM等)，并支持单GPU和多GPU训练，以及全参微调、Lora微调、QLora微调等多种微调方法。
#### 主要内容：
1. **引言**
- 回顾了传统编码训练的复杂性，介绍了LLamaFactory作为零代码微调平台，涵盖了对多种模型和多类型的训练支持。
2. **安装**
- 详细步骤指导LLamaFactory的安装，包括Git克隆和依赖安装。
- 遇到PyTorch和TorchVision版本不兼容的问题，并通过版本升级解决。
3. **数据处理**
- 说明LLamaFactory支持多种数据格式，如alpaca格式，并展示了如何将现有数据集转换为alpaca格式。
- 示例展示了如何使用Python脚本转换数据集文件格式，并配置到LLamaFactory的数据集信息文件中。
4. **训练参数配置**
- 通过yaml文件配置训练参数，包括模型路径、微调方法、数据集、输出路径以及训练和验证的具体配置。
- 参数详细说明，如模型名称、微调方式、数据集配置、模板选择、数据截断和采样数量等。
5. **训练**
- 使用多GPU进行训练，并通过环境变量设定可见的GPU设备。
- 启动训练命令，展示训练过程中的关键信息变化，如批量大小、训练步数的有效减少以及训练损失的变化。
6. **训练结果可视化**
- 利用TensorBoard可视化训练过程中的数据指标，如训练损失、验证损失和学习率变化等。
7. **评估测试**
- 通过编写和执行评估脚本来评估模型的性能，包括精确率(precision)和召回率(recall)的提升。
- 显示多GPU训练的优越性，通过增加批量大小提升训练效果。
#### 结论
本文利用LLamaFactory平台进行了一次多GPU训练的示例演示，从安装、数据处理、配置参数到训练和评估的整个流程。通过多GPU训练的优势，展示了批量大小显著增加对模型训练效果的积极影响，特别是在训练速度和模型性能方面有明显提升。LLamaFactory的简洁性和灵活性使得对大语言模型的调整和训练变得更加高效和易于操作。