当前位置:AIGC资讯 > AIGC > 正文

【04】LLaMA-Factory微调大模型——数据准备

在上文【03】LLaMA-Factory微调大模型——多模型部署中完成了Qwen2、GLM-4、LLaMA3-8B-Chinese-Chat三个模型的部署,本文则进行数据准备,为后续的微调模型提供高质量、格式规范的数据支撑。

一、数据格式

LLaMA-Factory支持 alpaca 格式和 sharegpt 格式的数据集。

Alapaca格式

[
  {
    "instruction": "人类指令(必填)",
    "input": "人类输入(选填)",
    "output": "模型回答(必填)",
    "system": "系统提示词(选填)",
    "history": [
      ["第一轮指令(选填)", "第一轮回答(选填)"],
      ["第二轮指令(选填)", "第二轮回答(选填)"]
    ]
  }
]

在指令监督微调时,instruction 列对应的内容会与 input 列对应的内容拼接后作为人类指令,即人类指令为 instruction\n input。而 output 列对应的内容为模型回答。

如果指定,system 列对应的内容将被作为系统提示词。history 列是由多个字符串二元组构成的列表,分别代表历史消息中每轮对话的指令和回答。注意在指令监督微调时,历史消息中的回答内容也会被用于模型学习。

一个简单的 alpaca 格式样例数据集如下:

[
  {
    "instruction": "识别并解释给定列表中的两个科学理论:细胞理论和日心说。",
    "input": "",
    "output": "细胞理论是生物科学的一个理论,它认为所有生命体都是由微小的基本单元——细胞所构成。这是生物学的一个基础理论,认为细胞是所有生物的基本结构和功能单位,所有的生物都是由一个或多个细胞组成,细胞只能通过细胞分裂产生新的细胞。这一理论由薛定谔、施瓦内和雪莱于1839年首次提出。\n\n日心说是指太阳是太阳系的中心,也就是说,行星围绕太阳旋转的理论。这个理论打破了传统的地心说观点,认为地球并不是宇宙的中心。日心说的提出者是尼古拉·哥白尼,他在16世纪初发表了他的著作《天体运行论》,阐述了太阳系行星围绕太阳运行的模型,为天文学的发展做出了巨大贡献。"
  },
  {
    "instruction": "输入三支篮球队的名称并生成一个适当的口号。",
    "input": "输入:俄克拉荷马城雷霆队,芝加哥公牛队,布鲁克林网队。",
    "output": "输出: \"雷霆,公牛和网队:各显神通,角逐群雄!\""
  },
  {
    "instruction": "比较以下两位著名人物,使用特征列表并以句子形式提供输出。",
    "input": "人物1:阿尔伯特·爱因斯坦\n人物2:斯蒂芬·霍金\n特征:智力、教育、对世界的影响",
    "output": "阿尔伯特·爱因斯坦和斯蒂芬·霍金都是拥有极其出色智力的人物。两人都取得过非常高的教育成就,他们推进了科学发展并在世界范围内产生了深远的影响。爱因斯坦以其相对论和质能关系公式而闻名,而霍金以其关于黑洞和宇宙的发现而著称。两位科学家都以其深厚的学识和非凡的贡献影响了世界。"
  }
]

相比 alpaca 格式的数据集,sharegpt 格式支持更多的角色种类,例如 human、gpt、observation、function 等等。它们构成一个对象列表呈现在 conversations 列中。其中 human 和 observation 必须出现在奇数位置,gpt 和 function 必须出现在偶数位置。sharegpt 格式如下:

[
  {
    "conversations": [
      {
        "from": "human",
        "value": "人类指令"
      },
      {
        "from": "function_call",
        "value": "工具参数"
      },
      {
        "from": "observation",
        "value": "工具结果"
      },
      {
        "from": "gpt",
        "value": "模型回答"
      }
    ],
    "system": "系统提示词(选填)",
    "tools": "工具描述(选填)"
  }
]

 二、配置数据集

LLaMA-Factory中的 文件中包含了所有可用的数据集。如果使用自定义数据集,首先需要在 dataset_info.json 文件中添加数据集描述,并通过修改 dataset: 数据集名称 配置来使用数据集。 dataset_info.json中的注册结构如下。

"数据集名称": {
  "hf_hub_url": "Hugging Face 的数据集仓库地址(若指定,则忽略 script_url 和 file_name)",
  "ms_hub_url": "ModelScope 的数据集仓库地址(若指定,则忽略 script_url 和 file_name)",
  "script_url": "包含数据加载脚本的本地文件夹名称(若指定,则忽略 file_name)",
  "file_name": "该目录下数据集文件夹或文件的名称(若上述参数未指定,则此项必需)",
  "formatting": "数据集格式(可选,默认:alpaca,可以为 alpaca 或 sharegpt)",
  "ranking": "是否为偏好数据集(可选,默认:False)",
  "subset": "数据集子集的名称(可选,默认:None)",
  "split": "所使用的数据集切分(可选,默认:train)",
  "folder": "Hugging Face 仓库的文件夹名称(可选,默认:None)",
  "num_samples": "该数据集所使用的样本数量。(可选,默认:None)",
  "columns(可选)": {
    "prompt": "数据集代表提示词的表头名称(默认:instruction)",
    "query": "数据集代表请求的表头名称(默认:input)",
    "response": "数据集代表回答的表头名称(默认:output)",
    "history": "数据集代表历史对话的表头名称(默认:None)",
    "messages": "数据集代表消息列表的表头名称(默认:conversations)",
    "system": "数据集代表系统提示的表头名称(默认:None)",
    "tools": "数据集代表工具描述的表头名称(默认:None)",
    "images": "数据集代表图像输入的表头名称(默认:None)",
    "chosen": "数据集代表更优回答的表头名称(默认:None)",
    "rejected": "数据集代表更差回答的表头名称(默认:None)",
    "kto_tag": "数据集代表 KTO 标签的表头名称(默认:None)"
  },
  "tags(可选,用于 sharegpt 格式)": {
    "role_tag": "消息中代表发送者身份的键名(默认:from)",
    "content_tag": "消息中代表文本内容的键名(默认:value)",
    "user_tag": "消息中代表用户的 role_tag(默认:human)",
    "assistant_tag": "消息中代表助手的 role_tag(默认:gpt)",
    "observation_tag": "消息中代表工具返回结果的 role_tag(默认:observation)",
    "function_tag": "消息中代表工具调用的 role_tag(默认:function_call)",
    "system_tag": "消息中代表系统提示的 role_tag(默认:system,会覆盖 system column)"
  }
}

对于alpaca 格式的数据,dataset_info.json 中的数据集注册描述应为:

"数据集名称": {
  "file_name": "data.json",
  "columns": {
    "prompt": "instruction",
    "query": "input",
    "response": "output",
    "system": "system",
    "history": "history"
  }
}

对于sharegpt 格式的数据,dataset_info.json 中的数据集注册描述应为:

"数据集名称": {
  "file_name": "data.json",
  "formatting": "sharegpt",
  "columns": {
    "messages": "conversations",
    "system": "system",
    "tools": "tools"
  }
}

 三、指令监督微调数据集注册

为了构建法律垂直大模型,本文依据本地法律数据文本构建了指令微调数据集,名称为law_train.json,基本格式如下:

{
    "instruction": "请根据基本案情,利用三段论的推理方式得到判决结果,判决结果包括:1.罪名;\n2.刑期。",
    "input": "基本案情:\n广东省鹤山市人民检察院指控被告人李某甲于2014年7月7日9时许,在鹤山市宅梧镇双和公路宅梧收费站附近路段被民警抓获。民警当场从李某甲身上搜获搜获白色晶体38小包。经鉴定,从李某甲处缴获的白色晶体净重12.9克,检出甲基苯丙胺成分。被告人李某甲到案后如实供述自己的罪行,可以从轻处罚。建议对被告人判处有期徒刑六个月至一年六个月,并处罚金。提请法院依法惩处。上述事实,被告人李某甲在开庭审理过程中亦无异议,并有抓获被告人及破案的经过材料、被告人的供述、证人李X锋的证言、扣押物品清单、鉴定意见、辨认笔录、现场勘某足以认定。",
    "output": "犯罪要件:\n犯罪主体:\n 犯罪主体为被告人李某甲,构成要件为完全行为能力人。\n    犯罪客体:\n 犯罪客体为社会公共安全,包括禁毒法规所保护的社会关系。被告人李某甲非法持有、贩卖毒品,严重危害社会公共安全,破坏社会治安秩序。\n    犯罪主观要件:\n 犯罪主观方面为故意,李某甲明知所持有的白色晶体为甲基苯丙胺,仍然故意贩卖毒品。犯罪意图为非法牟利。\n    犯罪客观要件:\n 犯罪时间:2014年7月7日9时许。犯罪地点:广东省鹤山市宅梧镇双和公路宅梧收费站附近路段。犯罪行为:携带白色晶体38小包,净重12.9克,检出甲基苯丙胺成分。犯罪结果:被民警抓获。\n    适用法条:\n 《中华人民共和国刑法》第三百四十八条 【非法持有毒品罪】,李某甲非法持有甲基苯丙胺十克以上不满五十克,罪名成立,应判处三年以下有期徒刑,并处罚金。 \n    判决结果:\n 罪名:非法持有毒品罪刑期:三年以下有期徒刑,并处罚金。 "
}

 【提示】该指令微调数据集可通过博主的主页资源处获取

法律大模型-指令微调数据集资源-CSDN文库https://download.csdn.net/download/H66778899/89549524(1)将该数据集上传至服务器LLaMA-Factory/data路径下

上传成功后进行查询

(2)编辑dataset_info.json,注册自定义数据集

推荐window系统使用Xshell、mac系统使用royal tsx 进行远程,便于编辑文本。Xshell是一款图形化的SSH终端模拟软件。它可以在Windows操作系统上使用,用于远程连接到其他计算机或服务器,并在远程主机上执行命令。Royal TSX,其是一款功能强大的远程桌面和终端服务管理软件,适用于 macOS 系统。它可以帮助用户连接和管理远程桌面、终端、SSH、Telnet、VNC 和其他远程连接。Royal TSX的安装及使用方法可见博主的此篇博客。

MacBook电脑远程连接Linux系统的服务器方法-CSDN博客https://blog.csdn.net/H66778899/article/details/140492540?csdn_share_tail=%7B%22type%22%3A%22blog%22%2C%22rType%22%3A%22article%22%2C%22rId%22%3A%22140492540%22%2C%22source%22%3A%22H66778899%22%7D

采用文本编辑器或记事本将该文件打开,对law_train.json文件进行注册

"law_train": {
  "file_name": "law_train.json",
  "columns": {
    "prompt": "instruction",
    "query": "input",
    "response": "output"
  }
}

 四、数据集验证

启动LLaMA-Factory的浏览器页面,在Train标签下,选择数据集,可找到law_train,此后预览数据集

llamafactory-cli webui

 预览数据集可正常显示则表明数据集成功注册,显示该指令监督微调数据集包含11237条数据项,每一页可展示具体的数据内容

小结

本文介绍了如何准备指令监督微调数据,为后续的微调模型提供高质量、格式规范的数据支撑。下文【05】LLaMA-Factory微调大模型——微调模型将正式进入模型微调阶段,欢迎您持续关注,如果本文对您有所帮助,感谢您一键三连,多多支持!

总结

**文中总结:**
本文聚焦于LLaMA-Factory平台中指令监督微调数据集的准备工作,为后续的模型微调提供格式规范、质量上乘的数据集支撑。主要内容包括以下几点:
1. **数据格式支持**:LLaMA-Factory支持alpaca和sharegpt两种数据格式。Alpaca格式每个数据项包含“instruction”(必填)、“input”(选填)、“output”(必填)、“system”(选填)和“history”(历史对话,选填)。Sharegpt格式则支持更多角色种类,并通过“conversations”数组来表达对话流程,包括human、gpt、observation等角色。
2. **数据集配置**:通过修改`dataset_info.json`文件可以注册自定义数据集,并根据数据集格式及内容特点详细配置各项参数,如数据集名称、数据来源地址、格式、使用样本数、特定的列名配置等。
3. **指令监督微调数据集构建**:文中以法律垂直领域为例,展示了如何构建适用于本领域的指令监督微调数据集`law_train.json`,包括基本的案情描述、判决结果的推理等。数据集成功构建后需上传至LLaMA-Factory的数据目录下,并在`dataset_info.json`文件中进行注册描述。
4. **数据集验证**:注册完成后,在LLaMA-Factory的浏览器界面中预览数据集,确保数据能够正常展示无误。文中示例显示出预览数据集中包含了11237条法律相关的微调数据项。
5. **后续展望**:文末预告了后续文章将正式进入模型微调阶段,并鼓励读者持续关注和支持。
综上所述,本文提供了详细的数据准备指导和流程,确保为LLaMA-Factory平台的模型微调打下坚实的数据基础。

更新时间 2024-08-15