EMNLP 2023｜利用LLM合成数据训练模型有哪些坑？

大家好，我是HxShine

今天我们将介绍EMNLP2023的一篇大模型（LLMs）生成文本分类任务合成数据的文章，标题是《Synthetic Data Generation with Large Language Models for Text Classification: Potential and Limitations》。

实际落地中，高质量训练数据的收集和筛选既耗费时间又成本昂贵，研究人员探索使用LLMs生成合成数据作为替代方法。然而，LLMs生成的合成数据在支持不同文本分类任务的模型训练上效果有好有差。本文试图分析不同因素如何影响LLMs生成合成数据的有效性。

这篇论文研究了大型语言模型（LLMs）生成合成数据集用于文本分类模型训练的潜力和限制。分析发现，任务的主观性（标注一致性越差）越高，利用合成数据来训练模型效果也越差。另外合成数据效果好不好的关键影响因素在于生成数据的多样性如何，few-shot方式可以提高生成样本的多样性，通过few-shot方式生成的样本效果也一般优于zero-shot的样本。

• Title: Synthetic Data Generation with Large Language Models for Text Classification: Potential and Limitations

• Url: https://arxiv.org/abs/2310.07849

• Authors: Zhuoyan Li, Hangxiao Zhu, Zhuoran Lu, Ming Yin

1 Motivation

• 利用LLM生成训练数据（例如文本分类数据）是否有效？效果的影响因素有哪些？

• 这项研究旨在探讨大型语言模型生成合成数据对文本分类模型训练的有效性及其在不同任务中的表现差异性。

• 作者们尤其关注分类任务的主观性如何影响基于合成数据训练的模型的性能。

背景：研究者最近探索了使用大型语言模型（LLMs）生成合成数据集作为一种替代方法。然而在不同的分类任务中，LLM生成的合成数据在支持模型训练方面的有效性并不一致。

2 Methods

方法：论文通过采用两种数据生成策略，10个文本分类任务数据集，利用BERT和RoBERTa作为基座模型，在多个角度对生成的数据进行了分析，从而推导出关于LLMs在合成数据生成中的潜力和局限性，最后通过对比分析得到了合成数据在模型训练中的表现与任务和实例的主观性负相关（标注一致性越低、主观性越高）的结论。

实验和评估方法总结:

实验方法：

1. 数据生成：

• 零样本（Zero-shot）：在没有真实世界数据的情况下，使用LLM直接生成文本实例。这涉及到构建上下文提示来设定生成环境，然后提供数据生成提示来指导LLM生成具有特定标签的文本。

• 少样本（Few-shot）：在有少量真实世界数据的情况下，这些数据作为例子指导LLM生成新的文本实例。这种方法旨在让LLM学习真实数据的模式，并在此基础上生成合成数据。

2. 数据集选择：选择了10个不同的文本分类任务数据集，这些数据集涵盖了从低到高不同程度的主观性，以便研究主观性对模型性能的影响。

3. 模型训练：使用BERT和RoBERTa预训练模型作为编码器，训练分类模型。训练过程中，分别使用真实世界数据、零样本合成数据和少样本合成数据。

评估方法：

1. 性能指标：评估模型性能的主要指标是Macro-F1分数和准确率（Accuracy Score）。这些指标用于衡量模型在测试集上的表现，并与金标准标签进行比较。

2. 主观性评估：通过众包研究收集任务和实例级的主观性判断。任务主观性通过比较任务对的客观性来确定，而实例级主观性则通过标注人员对文本实例标签的一致性来衡量（标注一致性）。

3. 数据多样性分析：使用Remote Clique Score和Chamfer Distance Score来量化数据集的多样性，以探索模型性能差异的潜在原因。

4. 实例级性能分析：研究了模型在不同主观性水平的任务实例上的性能差异，即通过改变实例级标注人员一致性阈值来观察模型准确率的变化。

5. 实验重复性：为了确保结果的稳健性，所有实验都进行了多次重复，并报告了平均性能。

3 Conclusion

• 研究结果表明，分类任务的主观性越大（标注一致性也越差），使用LLM生成合成数据训练的模型的效果越差，这在任务级别和实例级别都得到了印证。

图片

Table 1: Comparing the performance of classification models trained on the LLM-generated synthetic data

二、详细内容

1 详细实验方案设置

本文的实验设置主要围绕使用大型语言模型（LLMs）生成合成数据以支持文本分类模型的训练。探讨了LLM生成的合成数据在不同分类任务中的有效性，并特别关注了任务的主观性如何影响模型性能。以下是实验的主要设置：

1. 数据生成设置：

• 零样本（Zero-shot）：在这种设置下，假设没有真实世界的数据（即“文本-标签对”）存在。研究者们构建了两个连续的提示（prompts），直接提供给预训练的大型语言模型（如GPT-3.5-Turbo），以生成特定风格的文本和标签。

• 少样本（Few-shot）：在这种设置下，假设有少量真实世界数据可用于文本分类任务。这些数据点作为例子，指导LLM生成合成数据。在生成文本之前，每次都会提供几个随机抽样的真实世界数据实例（包括文本和标签）作为例子。

2. 任务和数据集：

• 实验涵盖了10种代表性的数据集，覆盖了各种文本分类任务，如新闻分类、电影评论情感分析、短信垃圾邮件过滤等。这些数据集被选中是为了涵盖广泛的任务主观性。

• 对于每个任务，研究者们使用预训练的BERT和RoBERTa模型作为编码器，并使用这些模型最后一层的表示嵌入作为分类模型的输入。

3. 模型训练和评估：

• 在零样本和少样本设置下，分别生成了3000个合成数据，用于训练分类模型。

• 三类数据训练的模型进行对比：使用真实世界数据训练的模型、零样本设置下生成的合成数据训练的模型以及少样本设置下生成的合成数据训练的模型进行比较。

• 模型性能通过Macro-F1和准确率（Accuracy）分数来评估，并与测试集中的金标准标签进行比较。

4. 主观性评估：

• 为了确定不同文本分类任务的主观性水平，利用众包收集了人群对任务主观性的判断。

• 通过比较任务之间的主观性，构建了一个有向图，并应用拓扑排序算法来获得任务主观性的线性排序。

5. 数据多样性分析：

• 为了探索模型性能差异的潜在原因，研究者们对训练数据的多样性进行了探索性分析，使用了远程小团体得分（Remote Clique Score）和Chamfer距离得分（Chamfer Distance Score）来量化数据集的多样性。

6. 实例级主观性评估：

• 对于每个任务，研究者们还探讨了任务实例的主观性如何影响模型性能。通过众包研究收集了实例级注释，并计算了每个任务实例的主观性水平。

2 实验结论

图片

Table 1: Comparing the performance of classification models trained on the LLM-generated synthetic data

1. 数据集和任务：表中列出了10个不同的文本分类任务，包括AG新闻、IMDB评论、短信垃圾邮件、金融短语库、Reddit情绪、推特讽刺、推特情绪、讽刺新闻、幽默演讲等。

2. 任务主观性：表中通过星号（⋆）的数量来表示任务的主观性水平，星号越多表示任务越主观。

3. 模型性能：对于每个任务，表中展示了使用BERT和RoBERTa模型在真实世界数据、零样本设置下的合成数据和少样本设置下的合成数据上训练的模型的性能。

4. 性能比较：表中的数据展示了在不同数据集上，使用合成数据训练的模型与使用真实世界数据训练的模型之间的性能差异。性能差异以百分比形式表示，负值表示合成数据训练的模型性能低于真实数据训练的模型。

5. 主要结论：

• 使用真实世界数据训练的模型在几乎所有任务上都优于使用合成数据训练的模型，无论是零样本还是少样本设置。

• 在少样本设置下，模型的性能通常优于零样本设置，这表明使用真实世界数据作为例子可以提高合成数据的有效性。

• 对于主观性较低的任务（如新闻分类、关系分类、IMDB评论和短信垃圾邮件），合成数据训练的模型与真实数据训练的模型之间的性能差异相对较小。

• 对于主观性较高的任务（如幽默或讽刺检测），使用合成数据训练的模型性能下降更为显著。

这些结论表明，任务的主观性是影响LLM生成合成数据有效性的一个重要因素。对于高度主观的任务，LLM生成的合成数据可能不足以支持有效的模型训练。

3 真实数据与合成数据的多样性分析

图片

Figure 1 在文档中提供了关于真实世界数据与LLM生成的合成数据多样性的比较。这个比较是通过两个指标来量化的：Remote Clique Score（远程小团体得分）和Chamfer Distance Score（Chamfer距离得分）。这两个指标用于衡量数据集中实例之间的多样性，其中较高的值表示更大的数据多样性。

Remote Clique Score 是数据实例到其他实例的平均平均距离，而 Chamfer Distance Score 是数据实例到其他实例的平均最小距离。在这两个指标中，较高的值意味着数据实例之间的差异更大，即数据集的多样性更高。

Figure 1 结论：

1. 数据多样性：真实世界数据通常比少样本设置下生成的合成数据更具多样性，而少样本合成数据又比零样本设置下生成的合成数据更具多样性。

2. 任务主观性与数据多样性：在高主观性任务（如幽默检测、讽刺检测等）中，真实世界数据与合成数据之间的多样性差异更为显著，特别是在Chamfer Distance Score上。这表明对于需要理解复杂人类情感和语境的任务，LLM可能无法生成能够覆盖真实生活场景全貌的数据实例。

3. 模型性能与数据多样性：数据多样性的差异可能部分解释了为什么在真实世界数据和少样本合成数据上训练的模型通常优于在零样本合成数据上训练的模型。多样性更高的数据集可能有助于模型学习到更广泛的特征和模式，从而提高模型的泛化能力。

4 不同文本分类任务实例级主观性的量化评估

图片

Table 2: The average instance-level annotation agreement for different types of tasks

Table 2 在文档中提供了不同文本分类任务实例级主观性的量化评估，以及这些任务的平均标注人员的一致性。这些数据有助于理解任务实例的主观性如何影响模型在这些实例上的性能。表中包含以下内容和结论：

1. 任务实例级主观性：表中列出了不同文本分类任务，如AG新闻、关系分类、IMDB评论等，并提供了每个任务实例的平均标注人员的一致性（平均同意度 a）和Krippendorff’s α（一种衡量标注人员间一致性的统计量）。

2. 标注人员的一致性：平均同意度 a 和 Krippendorff’s α 的值越高，表示标注人员在给定任务实例的标签上达成一致的可能性越大，即任务实例的主观性较低。

3. 任务主观性水平：表中还提供了任务的主观性水平，用星号（⋆）的数量表示。星号越多，表示任务的主观性越高。

4. 主要结论：

• 任务实例的平均标注人员的一致性与Krippendorff’s α值紧密相关，这表明平均同意度 a（标注一致性）可以作为任务实例主观性的合理代理。

• 对于主观性较高的任务，如幽默检测和讽刺检测，标注人员在标签上的一致性较低，这可能意味着这些任务的实例更具主观性，从而对模型训练构成挑战。

• 在同一类型的任务中，模型在主观性较低的任务实例上（即标注人员在这些实例上达成较高一致性的实例）通常表现更好。

这些结论强调了任务实例的主观性对模型性能的影响，特别是在使用LLM生成的合成数据进行训练时。对于高度主观的任务实例，即使是在少样本设置下，模型的性能也可能受到限制，因为这些实例可能难以通过合成数据得到充分的表示。

5 准确率随标注一致性的变化情况

图片

Figure 2: Changes in the accuracy of the BERT model trained on zero-shot synthetic data as the instance-level annotation agreement threshold varies

Figure 2 在文档中展示了BERT模型在零样本合成数据上训练时，模型准确率随着实例级标注人员一致性阈值（γ）变化的情况。

1. 模型准确率与实例级标注人员一致性：对于大多数任务（除了Sarcasm News和Financial Phrasebank数据集），模型准确率与实例级标注人员一致性阈值之间存在强烈的单调递增关系。这意味着随着阈值的增加（即过滤掉更多主观性较高的任务实例），模型的准确率通常会提高。

2. 相关性和拟合度：每个子图中的实线表示数据的线性回归拟合，R-squared分数量化了拟合的好坏。Spearman’s ρ评估了实例级标注人员一致性阈值与模型准确率之间的排名相关性的强度。理想情况下，R-squared和Spearman’s ρ的值接近1，表明实例级主观性与模型准确率之间存在强烈的单调关系。

3. 主要结论：

• 对于大多数任务，模型在主观性较低的任务实例上表现更好。

• 这种趋势在真实世界数据训练的模型中也存在，但通常比合成数据训练的模型表现得要弱。这可能意味着合成数据可能无法完全捕捉到真实世界数据的复杂性和多样性。

三、总结

这篇论文讨论了利用LLM生成合成数据带来的潜力以及其在文本分类任务应用中的局限性。研究表明，当涉及到主观性较高的任务时，合成数据可能不足以支持高性能模型的训练。这项工作对于那些正在利用或计划使用LLM生成数据的研究人员来说非常重要，它提供了对合成数据有效性的深入理解，并指导了未来可能需要采取的方向和改进。

结论：

• 对于低主观性任务（标注一致性好），LLM生成的合成数据可以有效地支持模型训练。

• 对于高主观性任务（标注一致性差），合成数据可能不足以支持有效的模型训练。

• 合成数据效果不好的关键影响因素在于多样性比真实数据差，few-shot方式可以提高生成样本的多样性。

• 任务主观性与众包标注人员的一致性强相关，标注一致性可以作为任务实例主观性的合理表示。

本文转载自微信公众号「NLP PaperWeekly」，可以通过以下二维码关注。转载本文请联系NLP PaperWeekly公众号。

合成数据 llm 多样性一致性数据训练数据集文本分类模型性能模型训练零样本准确率 bert llms lms 大型语言模型语言模型研究者数据生成 cli sif