在上文【03】LLaMA-Factory微调大模型——多模型部署中完成了Qwen2、GLM-4、LLaMA3-8B-Chinese-Chat三个模型的部署,本文则进行数据准备,为后续的微调模型提供高质量、格式规范的数据支撑。
一、数据格式
LLaMA-Factory支持 alpaca 格式和 sharegpt 格式的数据集。
Alapaca格式
[
{
"instruction": "人类指令(必填)",
"input": "人类输入(选填)",
"output": "模型回答(必填)",
"system": "系统提示词(选填)",
"history": [
["第一轮指令(选填)", "第一轮回答(选填)"],
["第二轮指令(选填)", "第二轮回答(选填)"]
]
}
]
在指令监督微调时,instruction
列对应的内容会与 input
列对应的内容拼接后作为人类指令,即人类指令为 instruction\n input
。而 output
列对应的内容为模型回答。
如果指定,system
列对应的内容将被作为系统提示词。history
列是由多个字符串二元组构成的列表,分别代表历史消息中每轮对话的指令和回答。注意在指令监督微调时,历史消息中的回答内容也会被用于模型学习。
一个简单的 alpaca 格式样例数据集如下:
[
{
"instruction": "识别并解释给定列表中的两个科学理论:细胞理论和日心说。",
"input": "",
"output": "细胞理论是生物科学的一个理论,它认为所有生命体都是由微小的基本单元——细胞所构成。这是生物学的一个基础理论,认为细胞是所有生物的基本结构和功能单位,所有的生物都是由一个或多个细胞组成,细胞只能通过细胞分裂产生新的细胞。这一理论由薛定谔、施瓦内和雪莱于1839年首次提出。\n\n日心说是指太阳是太阳系的中心,也就是说,行星围绕太阳旋转的理论。这个理论打破了传统的地心说观点,认为地球并不是宇宙的中心。日心说的提出者是尼古拉·哥白尼,他在16世纪初发表了他的著作《天体运行论》,阐述了太阳系行星围绕太阳运行的模型,为天文学的发展做出了巨大贡献。"
},
{
"instruction": "输入三支篮球队的名称并生成一个适当的口号。",
"input": "输入:俄克拉荷马城雷霆队,芝加哥公牛队,布鲁克林网队。",
"output": "输出: \"雷霆,公牛和网队:各显神通,角逐群雄!\""
},
{
"instruction": "比较以下两位著名人物,使用特征列表并以句子形式提供输出。",
"input": "人物1:阿尔伯特·爱因斯坦\n人物2:斯蒂芬·霍金\n特征:智力、教育、对世界的影响",
"output": "阿尔伯特·爱因斯坦和斯蒂芬·霍金都是拥有极其出色智力的人物。两人都取得过非常高的教育成就,他们推进了科学发展并在世界范围内产生了深远的影响。爱因斯坦以其相对论和质能关系公式而闻名,而霍金以其关于黑洞和宇宙的发现而著称。两位科学家都以其深厚的学识和非凡的贡献影响了世界。"
}
]
相比 alpaca 格式的数据集,sharegpt 格式支持更多的角色种类,例如 human、gpt、observation、function 等等。它们构成一个对象列表呈现在 conversations
列中。其中 human 和 observation 必须出现在奇数位置,gpt 和 function 必须出现在偶数位置。sharegpt 格式如下:
[
{
"conversations": [
{
"from": "human",
"value": "人类指令"
},
{
"from": "function_call",
"value": "工具参数"
},
{
"from": "observation",
"value": "工具结果"
},
{
"from": "gpt",
"value": "模型回答"
}
],
"system": "系统提示词(选填)",
"tools": "工具描述(选填)"
}
]
二、配置数据集
LLaMA-Factory中的 文件中包含了所有可用的数据集。如果使用自定义数据集,首先需要在 dataset_info.json
文件中添加数据集描述,并通过修改 dataset: 数据集名称
配置来使用数据集。 dataset_info.json中的注册结构如下。
"数据集名称": {
"hf_hub_url": "Hugging Face 的数据集仓库地址(若指定,则忽略 script_url 和 file_name)",
"ms_hub_url": "ModelScope 的数据集仓库地址(若指定,则忽略 script_url 和 file_name)",
"script_url": "包含数据加载脚本的本地文件夹名称(若指定,则忽略 file_name)",
"file_name": "该目录下数据集文件夹或文件的名称(若上述参数未指定,则此项必需)",
"formatting": "数据集格式(可选,默认:alpaca,可以为 alpaca 或 sharegpt)",
"ranking": "是否为偏好数据集(可选,默认:False)",
"subset": "数据集子集的名称(可选,默认:None)",
"split": "所使用的数据集切分(可选,默认:train)",
"folder": "Hugging Face 仓库的文件夹名称(可选,默认:None)",
"num_samples": "该数据集所使用的样本数量。(可选,默认:None)",
"columns(可选)": {
"prompt": "数据集代表提示词的表头名称(默认:instruction)",
"query": "数据集代表请求的表头名称(默认:input)",
"response": "数据集代表回答的表头名称(默认:output)",
"history": "数据集代表历史对话的表头名称(默认:None)",
"messages": "数据集代表消息列表的表头名称(默认:conversations)",
"system": "数据集代表系统提示的表头名称(默认:None)",
"tools": "数据集代表工具描述的表头名称(默认:None)",
"images": "数据集代表图像输入的表头名称(默认:None)",
"chosen": "数据集代表更优回答的表头名称(默认:None)",
"rejected": "数据集代表更差回答的表头名称(默认:None)",
"kto_tag": "数据集代表 KTO 标签的表头名称(默认:None)"
},
"tags(可选,用于 sharegpt 格式)": {
"role_tag": "消息中代表发送者身份的键名(默认:from)",
"content_tag": "消息中代表文本内容的键名(默认:value)",
"user_tag": "消息中代表用户的 role_tag(默认:human)",
"assistant_tag": "消息中代表助手的 role_tag(默认:gpt)",
"observation_tag": "消息中代表工具返回结果的 role_tag(默认:observation)",
"function_tag": "消息中代表工具调用的 role_tag(默认:function_call)",
"system_tag": "消息中代表系统提示的 role_tag(默认:system,会覆盖 system column)"
}
}
对于alpaca 格式的数据,dataset_info.json
中的数据集注册描述应为:
"数据集名称": {
"file_name": "data.json",
"columns": {
"prompt": "instruction",
"query": "input",
"response": "output",
"system": "system",
"history": "history"
}
}
对于sharegpt 格式的数据,dataset_info.json
中的数据集注册描述应为:
"数据集名称": {
"file_name": "data.json",
"formatting": "sharegpt",
"columns": {
"messages": "conversations",
"system": "system",
"tools": "tools"
}
}
三、指令监督微调数据集注册
为了构建法律垂直大模型,本文依据本地法律数据文本构建了指令微调数据集,名称为law_train.json,基本格式如下:
{
"instruction": "请根据基本案情,利用三段论的推理方式得到判决结果,判决结果包括:1.罪名;\n2.刑期。",
"input": "基本案情:\n广东省鹤山市人民检察院指控被告人李某甲于2014年7月7日9时许,在鹤山市宅梧镇双和公路宅梧收费站附近路段被民警抓获。民警当场从李某甲身上搜获搜获白色晶体38小包。经鉴定,从李某甲处缴获的白色晶体净重12.9克,检出甲基苯丙胺成分。被告人李某甲到案后如实供述自己的罪行,可以从轻处罚。建议对被告人判处有期徒刑六个月至一年六个月,并处罚金。提请法院依法惩处。上述事实,被告人李某甲在开庭审理过程中亦无异议,并有抓获被告人及破案的经过材料、被告人的供述、证人李X锋的证言、扣押物品清单、鉴定意见、辨认笔录、现场勘某足以认定。",
"output": "犯罪要件:\n犯罪主体:\n 犯罪主体为被告人李某甲,构成要件为完全行为能力人。\n 犯罪客体:\n 犯罪客体为社会公共安全,包括禁毒法规所保护的社会关系。被告人李某甲非法持有、贩卖毒品,严重危害社会公共安全,破坏社会治安秩序。\n 犯罪主观要件:\n 犯罪主观方面为故意,李某甲明知所持有的白色晶体为甲基苯丙胺,仍然故意贩卖毒品。犯罪意图为非法牟利。\n 犯罪客观要件:\n 犯罪时间:2014年7月7日9时许。犯罪地点:广东省鹤山市宅梧镇双和公路宅梧收费站附近路段。犯罪行为:携带白色晶体38小包,净重12.9克,检出甲基苯丙胺成分。犯罪结果:被民警抓获。\n 适用法条:\n 《中华人民共和国刑法》第三百四十八条 【非法持有毒品罪】,李某甲非法持有甲基苯丙胺十克以上不满五十克,罪名成立,应判处三年以下有期徒刑,并处罚金。 \n 判决结果:\n 罪名:非法持有毒品罪刑期:三年以下有期徒刑,并处罚金。 "
}
【提示】该指令微调数据集可通过博主的主页资源处获取
法律大模型-指令微调数据集资源-CSDN文库https://download.csdn.net/download/H66778899/89549524(1)将该数据集上传至服务器LLaMA-Factory/data路径下
上传成功后进行查询
(2)编辑dataset_info.json,注册自定义数据集
推荐window系统使用Xshell、mac系统使用royal tsx 进行远程,便于编辑文本。Xshell是一款图形化的SSH终端模拟软件。它可以在Windows操作系统上使用,用于远程连接到其他计算机或服务器,并在远程主机上执行命令。Royal TSX,其是一款功能强大的远程桌面和终端服务管理软件,适用于 macOS 系统。它可以帮助用户连接和管理远程桌面、终端、SSH、Telnet、VNC 和其他远程连接。Royal TSX的安装及使用方法可见博主的此篇博客。
MacBook电脑远程连接Linux系统的服务器方法-CSDN博客https://blog.csdn.net/H66778899/article/details/140492540?csdn_share_tail=%7B%22type%22%3A%22blog%22%2C%22rType%22%3A%22article%22%2C%22rId%22%3A%22140492540%22%2C%22source%22%3A%22H66778899%22%7D
采用文本编辑器或记事本将该文件打开,对law_train.json文件进行注册
"law_train": {
"file_name": "law_train.json",
"columns": {
"prompt": "instruction",
"query": "input",
"response": "output"
}
}
四、数据集验证
启动LLaMA-Factory的浏览器页面,在Train标签下,选择数据集,可找到law_train,此后预览数据集
llamafactory-cli webui
预览数据集可正常显示则表明数据集成功注册,显示该指令监督微调数据集包含11237条数据项,每一页可展示具体的数据内容
小结
本文介绍了如何准备指令监督微调数据,为后续的微调模型提供高质量、格式规范的数据支撑。下文【05】LLaMA-Factory微调大模型——微调模型将正式进入模型微调阶段,欢迎您持续关注,如果本文对您有所帮助,感谢您一键三连,多多支持!
总结
**文中总结:**本文聚焦于LLaMA-Factory平台中指令监督微调数据集的准备工作,为后续的模型微调提供格式规范、质量上乘的数据集支撑。主要内容包括以下几点:
1. **数据格式支持**:LLaMA-Factory支持alpaca和sharegpt两种数据格式。Alpaca格式每个数据项包含“instruction”(必填)、“input”(选填)、“output”(必填)、“system”(选填)和“history”(历史对话,选填)。Sharegpt格式则支持更多角色种类,并通过“conversations”数组来表达对话流程,包括human、gpt、observation等角色。
2. **数据集配置**:通过修改`dataset_info.json`文件可以注册自定义数据集,并根据数据集格式及内容特点详细配置各项参数,如数据集名称、数据来源地址、格式、使用样本数、特定的列名配置等。
3. **指令监督微调数据集构建**:文中以法律垂直领域为例,展示了如何构建适用于本领域的指令监督微调数据集`law_train.json`,包括基本的案情描述、判决结果的推理等。数据集成功构建后需上传至LLaMA-Factory的数据目录下,并在`dataset_info.json`文件中进行注册描述。
4. **数据集验证**:注册完成后,在LLaMA-Factory的浏览器界面中预览数据集,确保数据能够正常展示无误。文中示例显示出预览数据集中包含了11237条法律相关的微调数据项。
5. **后续展望**:文末预告了后续文章将正式进入模型微调阶段,并鼓励读者持续关注和支持。
综上所述,本文提供了详细的数据准备指导和流程,确保为LLaMA-Factory平台的模型微调打下坚实的数据基础。