山东大学项目实训（十六）:基于LLaMA-Factory的微调模型评估和测试

在LLaMA-Factory的Evaluate & Predict界面进行评测

原始模型评测

微调后模型评测

可以看到，微调之后的模型在各个指标上有了显著提升

在完成大型语言模型（如 ChatGLM）的微调后，对模型进行全面评估和测试是至关重要的一步。这不仅帮助我们了解微调的效果，还指导后续的迭代优化。本文内容为使用 LLaMA-Factory 框架进行模型评估和测试的经验，并介绍如何根据评估结果进行优化。

在微调模型后，需要对其性能进行全面评估，以验证模型在目标任务上的效果。这部分包括对模型在模拟面试对话中的表现进行分析，主要考察以下几个方面：

回答准确性:

指标: 使用 BLEU 和 ROUGE 指标评估模型生成的回答与参考答案之间的相似性。结果: 微调前的 BLEU-4 为 5.93，ROUGE-1 为 22.20；微调后的 BLEU-4 提升至 11.30，ROUGE-1 提升至 32.79。这表明微调后模型在生成准确性上有显著提升。

回答逻辑性:

指标: 评估生成的回答是否符合逻辑，能够连贯回答问题。这通常通过人类评审或特定的对话质量评估工具来进行。结果: 在实际对话测试中，微调后的模型展示了更好的逻辑连贯性，能更有效地跟随对话上下文。

对固定格式的遵从度:

指标: 评估模型生成的回答是否符合预期的格式要求。这可以通过自动化测试脚本来验证生成的文本结构。结果: 微调后模型在保持输出格式一致性方面有显著提升，更好地满足了预期的格式标准。

生成效率:

指标: 通过 predict_runtime、predict_samples_per_second、和predict_steps_per_second 等指标来评估模型的生成速度。结果: 微调后模型的生成时间减少了一半以上，生成效率提升至每秒 2.45 个样本和每秒 0.306 个步骤，这意味着模型不仅更准确，而且更高效。

评估结果的量化数据

通过 LLaMA-Factory 基于网页的评估功能，我们获得了以下量化的评估数据：

指标微调前微调后 BLEU-4 5.93 11.30 ROUGE-1 22.20 32.79 ROUGE-2 5.20 12.21 ROUGE-L 13.72 25.68 predict_runtime 20.0068 秒 9.7952 秒 predict_samples_per_second 1.2 样本/秒 2.45 样本/秒 predict_steps_per_second 0.15 步骤/秒 0.306 步骤/秒

这些数据清晰地展示了微调后模型在多个关键指标上的提升。

迭代优化

在初步评估模型性能后，根据结果进行迭代优化是提升模型质量的关键。以下是一些基于评估结果的优化建议：

调整超参数:

学习率: 如果验证损失下降缓慢或不稳定，可以尝试进一步调整学习率。结合余弦退火等学习率调节器，动态优化学习率。批量大小: 适当调整批量大小和梯度累积，以确保内存使用合理且训练稳定。

改进数据集:

数据多样性: 增加数据集的多样性，尤其是对话类型和问题复杂度方面的扩展，可以提高模型的泛化能力。数据质量: 清洗和增强训练数据，去除噪声数据，并添加高质量的标签数据，可以进一步提升模型性能。

优化模型架构:

调整 LoRA 秩: 根据模型的复杂度和任务需求，调整 LoRA 秩以更好地适应新任务的数据特征。调节 LoRA 缩放系数: 根据验证集的表现，调整 LoRA 缩放系数，确保模型适配过程稳定且有效。

评估策略改进:

温度系数和 Top-p 采样值: 这些参数控制生成文本的多样性和创新性。可以实验不同的温度系数（如从 0.8 到 1.2）和 Top-p 采样值（如从 0.6 到 0.9），优化生成效果。

结论

通过使用 LLaMA-Factory 对 ChatGLM 进行微调和评估，我们能够有效地监控模型的性能，并通过调整超参数、改进数据集和优化评估策略来不断提升模型质量。微调后的模型在生成准确性、逻辑性和生成效率上都表现出显著的提升，为应用于实际的模拟面试对话系统提供了坚实的基础。

总结

### 在LLaMA-Factory中评测与优化：ChatGLM模型微调经验的总结
**一、引言**
本文介绍了在使用LLaMA-Factory框架对大型语言模型（如ChatGLM）进行微调后，如何通过全面的评估来验证其改进效果，并基于评估结果提出优化建议。这一过程是提升模型在实际应用中的重要性一去不返步骤，特别是在模拟面试对话这类复杂场景中。
**二、模型评估**
在模型评估过程中，我们关注了在模拟面试对话的多个关键性能维度：
1. **回答准确性**：微调后的模型在BLEU和ROUGE指标上显著提升，证明模型生成的回答与参考答案更加接近。
2. **回答逻辑性**：通过实际对话测试，微调模型的回答展现出更强的逻辑连贯性和上下文感知能力。
3. **格式一致性**：在保持输出格式上，微调模型表现得更为稳定，更符合预期格式要求。
4. **生成效率**：以量化数据（如每秒生成的样本数和步骤数）为证，微调模型在生成速度方面具有明显优势，意味着更低的延迟和更高的用户满意度。
**三、量化分析**
我们从LLaMA-Factory的网页评估工具中获得了量化数据，这些数据清晰地展现了微调模型在多个维度上的显著提升。
**四、迭代优化建议**
基于评估结果，我们提出了以下优化建议：
- **超参数调整**：包括学习率、批量大小等，可尝试使用学习率调节器（如余弦退火）来动态优化。
- **数据集优化**：增加数据集多样性和质量，清洗噪声数据并添加高质量标签数据以增强模型泛化能力。
- **模型架构优化**：通过实验不同LoRA秩和缩放系数，对模型架构进行微调以适应新任务特点。
- **评估策略改进**：调整温度系数和Top-p采样值，以平衡模型的多样性和准确性。
**五、结语**
通过对ChatGLM模型的微调与评估，我们可以确认模型性能在实际模拟面试对话场景中有着显著提升。基于评估结果的优化建议为进一步提升模型质量提供了方向，使得这些模型在实际应用中发挥更大的作用。