当前位置:AIGC资讯 > AIGC > 正文

山东大学项目实训(十六):基于LLaMA-Factory的微调模型评估和测试

在LLaMA-Factory的Evaluate & Predict界面进行评测

原始模型评测
 
微调后模型评测


可以看到,微调之后的模型在各个指标上有了显著提升

在完成大型语言模型(如 ChatGLM)的微调后,对模型进行全面评估和测试是至关重要的一步。这不仅帮助我们了解微调的效果,还指导后续的迭代优化。本文内容为使用 LLaMA-Factory 框架进行模型评估和测试的经验,并介绍如何根据评估结果进行优化。

在微调模型后,需要对其性能进行全面评估,以验证模型在目标任务上的效果。这部分包括对模型在模拟面试对话中的表现进行分析,主要考察以下几个方面:

回答准确性:

指标: 使用 BLEU 和 ROUGE 指标评估模型生成的回答与参考答案之间的相似性。 结果: 微调前的 BLEU-4 为 5.93,ROUGE-1 为 22.20;微调后的 BLEU-4 提升至 11.30,ROUGE-1 提升至 32.79。这表明微调后模型在生成准确性上有显著提升。

回答逻辑性:

指标: 评估生成的回答是否符合逻辑,能够连贯回答问题。这通常通过人类评审或特定的对话质量评估工具来进行。 结果: 在实际对话测试中,微调后的模型展示了更好的逻辑连贯性,能更有效地跟随对话上下文。

对固定格式的遵从度:

指标: 评估模型生成的回答是否符合预期的格式要求。这可以通过自动化测试脚本来验证生成的文本结构。 结果: 微调后模型在保持输出格式一致性方面有显著提升,更好地满足了预期的格式标准。

生成效率:

指标: 通过 predict_runtimepredict_samples_per_second、和predict_steps_per_second 等指标来评估模型的生成速度。 结果: 微调后模型的生成时间减少了一半以上,生成效率提升至每秒 2.45 个样本和每秒 0.306 个步骤,这意味着模型不仅更准确,而且更高效。
评估结果的量化数据

通过 LLaMA-Factory 基于网页的评估功能,我们获得了以下量化的评估数据:

指标 微调前 微调后 BLEU-4 5.93 11.30 ROUGE-1 22.20 32.79 ROUGE-2 5.20 12.21 ROUGE-L 13.72 25.68 predict_runtime 20.0068 秒 9.7952 秒 predict_samples_per_second 1.2 样本/秒 2.45 样本/秒 predict_steps_per_second 0.15 步骤/秒 0.306 步骤/秒

这些数据清晰地展示了微调后模型在多个关键指标上的提升。

迭代优化

在初步评估模型性能后,根据结果进行迭代优化是提升模型质量的关键。以下是一些基于评估结果的优化建议:

调整超参数:

学习率: 如果验证损失下降缓慢或不稳定,可以尝试进一步调整学习率。结合余弦退火等学习率调节器,动态优化学习率。 批量大小: 适当调整批量大小和梯度累积,以确保内存使用合理且训练稳定。

改进数据集:

数据多样性: 增加数据集的多样性,尤其是对话类型和问题复杂度方面的扩展,可以提高模型的泛化能力。 数据质量: 清洗和增强训练数据,去除噪声数据,并添加高质量的标签数据,可以进一步提升模型性能。

优化模型架构:

调整 LoRA 秩: 根据模型的复杂度和任务需求,调整 LoRA 秩以更好地适应新任务的数据特征。 调节 LoRA 缩放系数: 根据验证集的表现,调整 LoRA 缩放系数,确保模型适配过程稳定且有效。

评估策略改进:

温度系数和 Top-p 采样值: 这些参数控制生成文本的多样性和创新性。可以实验不同的温度系数(如从 0.81.2)和 Top-p 采样值(如从 0.60.9),优化生成效果。

结论

通过使用 LLaMA-Factory 对 ChatGLM 进行微调和评估,我们能够有效地监控模型的性能,并通过调整超参数、改进数据集和优化评估策略来不断提升模型质量。微调后的模型在生成准确性、逻辑性和生成效率上都表现出显著的提升,为应用于实际的模拟面试对话系统提供了坚实的基础。

总结

### 在LLaMA-Factory中评测与优化:ChatGLM模型微调经验的总结
**一、引言**
本文介绍了在使用LLaMA-Factory框架对大型语言模型(如ChatGLM)进行微调后,如何通过全面的评估来验证其改进效果,并基于评估结果提出优化建议。这一过程是提升模型在实际应用中的重要性一去不返步骤,特别是在模拟面试对话这类复杂场景中。
**二、模型评估**
在模型评估过程中,我们关注了在模拟面试对话的多个关键性能维度:
1. **回答准确性**:微调后的模型在BLEU和ROUGE指标上显著提升,证明模型生成的回答与参考答案更加接近。
2. **回答逻辑性**:通过实际对话测试,微调模型的回答展现出更强的逻辑连贯性和上下文感知能力。
3. **格式一致性**:在保持输出格式上,微调模型表现得更为稳定,更符合预期格式要求。
4. **生成效率**:以量化数据(如每秒生成的样本数和步骤数)为证,微调模型在生成速度方面具有明显优势,意味着更低的延迟和更高的用户满意度。
**三、量化分析**
我们从LLaMA-Factory的网页评估工具中获得了量化数据,这些数据清晰地展现了微调模型在多个维度上的显著提升。
**四、迭代优化建议**
基于评估结果,我们提出了以下优化建议:
- **超参数调整**:包括学习率、批量大小等,可尝试使用学习率调节器(如余弦退火)来动态优化。
- **数据集优化**:增加数据集多样性和质量,清洗噪声数据并添加高质量标签数据以增强模型泛化能力。
- **模型架构优化**:通过实验不同LoRA秩和缩放系数,对模型架构进行微调以适应新任务特点。
- **评估策略改进**:调整温度系数和Top-p采样值,以平衡模型的多样性和准确性。
**五、结语**
通过对ChatGLM模型的微调与评估,我们可以确认模型性能在实际模拟面试对话场景中有着显著提升。基于评估结果的优化建议为进一步提升模型质量提供了方向,使得这些模型在实际应用中发挥更大的作用。

更新时间 2024-07-16